Vícerozměrné statistické metody

Podobné dokumenty
Vícerozměrné statistické metody

Vícerozměrné statistické metody

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Vícerozměrné statistické metody

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Státnice odborné č. 20

Shluková analýza dat a stanovení počtu shluků

Cvičná bakalářská zkouška, 1. varianta

StatSoft Shlukování podobných

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Vícerozměrné statistické metody

Algoritmy pro shlukování prostorových dat

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

NADSTAVBOVÝ MODUL MOHSA V1

Fakulta chemicko technologická Katedra analytické chemie

ANALÝZA A KLASIFIKACE DAT

Algoritmizace prostorových úloh

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

Miroslav Čepek

Shluková analýza příklad

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Vícerozměrné statistické metody

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Nehierarchické shlukování

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

odlehlých hodnot pomocí algoritmu k-means

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Úvodem Dříve les než stromy 3 Operace s maticemi

Vícerozměrné analýzy a jejich využití

Kartografické modelování. VIII Modelování vzdálenosti

Klasifikace obchodních partnerů s využitím metod shlukové analýzy

Metody založené na analogii

RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský, PhD. Doc. RNDr. Ladislav Dušek, PhD. Ústav zdravotnických informací a statistiky České republiky

PRODUKTY. Tovek Tools

Vícerozměrná analýza dat

Shluková analýza. shlukovací metodě

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

vzorek vzorek

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Navrhování experimentů a jejich analýza. Eva Jarošová

Multivariátní porovnání dat - klastrová (shluková) analýza

Modifikace algoritmu FEKM

9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D.

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

4EK311 Operační výzkum. 5. Teorie grafů

Metody analýzy dat II

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

STATISTICKÉ CHARAKTERISTIKY

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Kybernetika a umělá inteligence, cvičení 10/11

Metody zpracování a analýzy medicínských obrazových dat: možnosti využití v neurovědním výzkumu

Prostorová variabilita

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

2. RBF neuronové sítě

Analýza dat na PC I.

Úlohy nejmenších čtverců

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Věc: VZ: CEITEC Software k vyhodnocení výsledků pulzní gelové elektroforézy, dodatečné informace č.1 odpověď na dotaz uchazeče

Úloha - rozpoznávání číslic

Vysoká škola báňská Technická univerzita Ostrava. Fakulta metalurgie a materiálového inženýrství

Mnohorozměrná statistika

Metody analýzy dat I. Míry a metriky - pokračování

Přednáška 13 Redukce dimenzionality

Směrování. static routing statické Při statickém směrování administrátor manuálně vloží směrovací informace do směrovací tabulky.

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

PRODUKTY. Tovek Tools

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

Zada ní 1. Semina rní pra ce z pr edme tu Matematický software (KI/MSW)

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

4.6.2 Analýza shluků CLU

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

Vícerozměrné statistické metody

Geoinformatika. IX GIS modelování

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION

Vytěžování znalostí z dat

Křivky a plochy technické praxe

Využití metod strojového učení v bioinformatice David Hoksza

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Popisná statistika kvantitativní veličiny

Pokročilé neparametrické metody. Klára Kubošová

OPTIMALIZAČNÍ ÚLOHY. Modelový příklad problém obchodního cestujícího:

GIS Geografické informační systémy

Matematika I 12a Euklidovská geometrie

Algoritmus. Přesné znění definice algoritmu zní: Algoritmus je procedura proveditelná Turingovým strojem.

ANALÝZA A KLASIFIKACE DAT

Základy tvorby výpočtového modelu

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Transkript:

Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová

FSTA: Pokročilé statistické metody Typy shlukových analýz

Shluková analýza: cíle a postupy Shluková analýza se snaží o identifikaci shluků objektů ve vícerozměrném prostoru a následnou redukce vícedimenzionálního problému kategorizací objektů do zjištěných shluků Existuje řada různých metod pro shlukování dat lišících se: Měřením vzdálenosti mezi objekty Algoritmem spojování objektů do shluků Interpretací výstupů Každá z metod má své vlastní předpoklady výpočtu a je nasaditelná pro různé typy úloh Dimenze 6 5 0 9 8 7 B C D E Porušení předpokladů nebo nasazení chybné metody může vést k zavádějícím výsledkům 6 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze

Obecný princip hledání shluků v datech Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností Dle vzdálenosti objektů je můžeme slučovat do shluků a přiřazení objektů ke shlukům ve vícerozměrném prostoru následně využít pro zjednodušení jejich x dimenzionálního popisu Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích definice shluků Jednoznačné odlišení existujících shluků v datech (obdoba multimodálního rozložení) Shluková analýza je možná i v tomto případě, nicméně hranice shluků jsou dány pouze naším rozhodnutím.

Identifikace optimálního počtu shluků Cílem analýzy může být jednak zjistit vazby mezi objekty (dostatečným výstupem je dendrogram) nebo identifikovat v datech shluky, které budou využity v další analýze jako zjednodušení vícedimenzionálního problému Identifikace shluků ve výsledcích shlukové analýzy: Expertní/intuitivní hranice oddělení shluků je určena podle zkušeností analytika a praktického významu výstupu Matematické metody (analýza mezishlukových/vnitroshlukových vzdáleností; silhouette metoda aj.) fungují dobře v případě existence přirozených shluků V některých případech (při neexistenci přirozených shluků) je rozdělení souboru pouze arbitrární Jednoznačný řez na více vzdálenostech Jediný identifikovatelný řez, navíc na malé vzdálenosti 0.0 0.5.0.5.0.5.0.5.0.5 5.0 5.5 6.0 6.5 7.0 0.0 0.5.0.5.0.5.0.5.0.5 5.0 5.5 6.0 6.5 7.0 5

Identifikace optimálního počtu shluků Mezi shlukovou analýzou a pozicí objektů ve vícerozměrném prostoru existuje vztah Jednoznačný řez na více vzdálenostech Jediný identifikovatelný řez, navíc na malé vzdálenosti 0.0 0.5.0.5.0.5.0.5.0.5 5.0 5.5 6.0 6.5 7.0 0.0 0.5.0.5.0.5.0.5.0.5 5.0 5.5 6.0 6.5 7.0 SEPALLEN SEPALLEN SEPALWID SEPALWID PETALLEN PETALLEN PETALWID PETALWID 6

Shluková analýza: typy metod Shluková analýza Hierarchické shluky jsou definovány postupným skládáním objektů Nehierarchické Shluky jsou definovány v jednom kroku Divizivní Objekty jsou nejprve rozděleny do dvou shluků, tyto shluky jsou dále rozděleny atd. Aglomerativní Po spojení první dvojice objektů dochází k postupnému napojování dalších objektů. Divizivní Objekty jsou rozděleny do předem nastaveného počtu shluků. Aglomerativní síť spojených bodů. Krok Kolik shluků chceme definovat? Například Minimum spanning tree, Prim network. Krok X. Krok Atd. Atd. Výpočet ukončen Výpočet ukončen 7

FSTA: Pokročilé statistické metody Hierarchické aglomerativní shlukování

Hierarchické aglomerativní shlukování Při tomto způsobu shlukování jsou postupně shlukovány nejpodobnější objekty až do doby, kdy jsou všechny objekty propojeny do jednoho shluku spojujícího všechny objekty v analyzovaném souboru Analýza má dva hlavní kroky Výběr vhodné metriky vzdálenosti/podobnosti pro výpočet asociační matice (analýza může probíhat na libovolných metrikách vzdálenosti/podobnosti) Výběr shlukovacího algoritmu, který podstatným způsobem ovlivňuje výsledky analýzy a možnosti její interpretace Algoritmus výpočtu postupuje v následujícím cyklu Výpočet asociační matice Spojení dvou nejpodobnějších objektů Přepočítání asociační matice tak, že spojené objekty již nadále vystupují jako jediný objekt (v tomto kroku se uplatňuje zvolený shlukovací algoritmus, který definuje jak bude počítána vzdálenost/podobnost spojených objektů vůči ostatním objektům) Spojení dvou nejpodobnějších objektů z přepočítané asociační matice Atd. až do spojení všech objektů 9

Hierarchické aglomerativní shlukování: schéma výpočtu Výběr metriky podobnosti/vzdálenosti Ukončení výpočtu po spojení všech objektů Dendrogram A B Asociační matice C D E 0 5 6 7 8 9 0 Linkage Distance Výpočet podobnosti sloučené dvojice objektů k ostatním objektům Nalezení dvojice nejpodobnějších objektů Amalgamation schedule/graph Výběr shlukovacího algoritmu Linkage Distance 0 8 6 0 0 5 Step 0

Popis výstupů: dendrogram Tree Diagram for 5 Cases Complete Linkage Euclidean distances Výstupy shlukové analýzy musí být vždy popsány použitou metrikou vzdáleností a shlukovacím algoritmem A Shlukované objekty, jejich pořadí je dáno přiřazením do shluků, není problém jejich pořadí v grafu měnit (např. v tomto konkrétním grafu prohodit A ab), pouze nesmí dojít ke změně shluků B C D E Propojení shlukovaných objektů 0 5 6 7 8 9 0 Linkage Distance Vzdálenost na níž došlo ke spojení shluku: je v rozměrech použité metriky vzdáleností/podobností a v tomto kontextu ji lze kvantitativně interpretovat interpretace vzdálenosti shlukování se liší podle použitého shlukovacího algoritmu někdy se uvádí ve škále 0 00%, kde 00% je maximální vzdálenost shlukování

Popis výstupů: Amalgamation schedule/graph Popis postupu shlukování Využitelné pro identifikaci optimálního počtu shluků Objekty spojené v jednotlivých krocích shlukování Linkage Distance 0 8 6 0 0 5 Step Grafické vyjádření kroků shlukování a vzdálenosti na nichž došlo k propojení objektů Pokud je v grafu dlouhá vzdálenost bez napojení shluku, jde o možné místo zastavení shlukování a definici finálních shluků

Shlukovací algoritmy hierarchického aglomerativního shlukování I Metoda nejbližšího souseda (nearest neighbour, simple linkage) spojení dle nejmenší vzdálenosti mezi objekty shluků Průměrná vzdálenost (pair group average) spojení dle průměrné vzdálenosti mezi objekty shluků Vážená (weighted) odstranění vlivu velikosti shluků, shluky bez ohledu na velikost přispívají k výpočtu spojovací vzdálenosti stejnou vahou Nevážená (unweighted) výpočet spojovací vzdálenosti je ovlivněn velikostí spojovaných shluků Středospojná vzdálenost (pair group centroid) spojení dle vzdálenosti centroidů shluků Vážená (weighted) odstranění vlivu velikosti shluků, shluky bez ohledu na velikost přispívají k výpočtu spojovací vzdálenosti stejnou vahou Nevážená (unweighted) výpočet spojovací vzdálenosti je ovlivněn velikostí spojovaných shluků Metoda nejvzdálenějšího souseda (farthest neigbour, complete linkage) spojení dle největší vzdálenosti mezi objekty shluků

Shlukovací algoritmy hierarchického aglomerativního shlukování II Metoda nejbližšího souseda (nearest neighbour, simple linkage) spojení dle nejmenší vzdálenosti mezi objekty shluků vede na nejvíce zřetězené dendrogramy Průměrná vzdálenost (pair group average) spojení dle průměrné vzdálenosti mezi objekty shluků Středospojná vzdálenost (pair group centroid) spojení dle vzdálenosti centroidů shluků Přechod mezi oběma extrémy (metoda flexible clustering umožňuje dle nastavení zcela plynulý přechod) Metoda nejvzdálenějšího souseda (farthest neigbour, complete linkage) spojení dle největší vzdálenosti mezi objekty shluků vede na dendrogramy s dobře oddělenými shluky

Shlukovací algoritmy hierarchického aglomerativního shlukování III: Wardova metoda Principielně podobné ANOVA Shluky jsou vytvářeny tak aby nově vzniklý shluk přispíval co nejméně k sumě čtverců vzdáleností objektů od centroidů jejich shluků V počátečním kroku je každý objekt sám sobě shlukem a tedy vzdálenost od centroidu shluku je 0 Pro výpočet vzdáleností od centroidu je používána Euklidovská vzdálenost Pro popis vzdálenosti shlukování je v dendrogramu možné použít řadu postupů (nezbytné ověřit jaký přístup je k dispozici v použitém SW): Čtverce vzdáleností Odmocnina čtverce vzdáleností Podíl variability (čtverce vzdáleností) připadající na daný shluk Aj. Krok : každý objekt je sám sobě centroidem Krok : spojení objektů, které nejméně přispějí k sumě čtverců vzdáleností od centroidu Krok : spojení objektů, které nejméně přispějí k sumě čtverců vzdáleností od centroidu Krok : stejný postup až do spojení všech objektů 5

FSTA: Pokročilé statistické metody Hierarchické aglomerativní shlukování: Příklad výpočtu metody nejbližšího souseda

Metoda nejbližšího souseda:. krok výpočtu Je vypočtena asociační matice A B C D E A 0.0.0 7..8.7 B.0 0.0.5 0.0 0. C 7..5 0.0 5.7 5.8 D.8 0.0 5.7 0.0. E.7 0. 5.8. 0.0 Je definován shluk dvou nejbližších objektů D E Dimenze 6 5 C 0 9 B 8 7 6 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 7

Metoda nejbližšího souseda:. krok výpočtu Je vypočtena asociační matice, kde objekty D E již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána nejmenší vzdáleností od jeho členů (D, E) A B C D+E A 0.0.0 7..7 B.0 0.0.5 0.0 C 7..5 0.0 5.7 D+E.7 0.0 5.7 0.0 Je definován shluk dvou nejbližších objektů A B Dimenze 6 5 0 9 8 7 6 C B 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 8

Metoda nejbližšího souseda:. krok výpočtu Je vypočtena asociační matice, kde objekty A B již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána nejmenší vzdáleností od jeho členů (A, B) A+B C D+E A+B 0.0.5 0.0 C.5 0.0 5.7 D+E 0.0 5.7 0.0 Je definován shluk dvou nejbližších objektů (A B) C Dimenze 6 5 0 9 8 7 6 B C 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 9

Metoda nejbližšího souseda:. krok výpočtu Je vypočtena asociační matice, kde objekty (A B) C již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána nejmenší vzdáleností od jeho členů (A, B, C) A+B+C D+E A+B+C 0.0 5.7 D+E 5.7 0.0 Je definován shluk dvou nejbližších objektů ((A B) C) (D E) Všechny objekty jsou spojeny, algoritmus je ukončen Dimenze 6 5 0 9 8 7 6 B C 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 0

Metoda nejbližšího souseda: výsledek analýzy Výsledek analýzy je vizualizován ve formě dendrogramu A B C D E Tree Diagram for 5 Cases Single Linkage Euclidean distances 0 5 6 Linkage Distance Dimenze 6 5 0 9 8 7 6 B C 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E

FSTA: Pokročilé statistické metody Hierarchické aglomerativní shlukování: Příklad výpočtu metody nejvzdálenějšího souseda

Metoda nejvzdálenějšího souseda:. krok výpočtu Je vypočtena asociační matice A B C D E A 0.0.0 7..8.7 B.0 0.0.5 0.0 0. C 7..5 0.0 5.7 5.8 D.8 0.0 5.7 0.0. E.7 0. 5.8. 0.0 Je definován shluk dvou nejbližších objektů D E Dimenze 6 5 C 0 9 B 8 7 6 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E

Metoda nejvzdálenějšího souseda:. krok výpočtu Je vypočtena asociační matice, kde objekty D E již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána největší vzdáleností od jeho členů (D, E) A B C D+E A 0.0.0 7..8 B.0 0.0.5 0. C 7..5 0.0 5.8 D+E.8 0. 5.8 0.0 Je definován shluk dvou nejbližších objektů A B Dimenze 6 5 0 9 8 7 6 C B 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E

Metoda nejvzdálenějšího souseda:. krok výpočtu Je vypočtena asociační matice, kde objekty A B již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána největší vzdáleností od jeho členů (A, B) A+B C D+E A+B 0.0 7..8 C 7. 0.0 5.8 D+E.8 5.8 0.0 Je definován shluk dvou nejbližších objektů (D E) C Dimenze 6 5 0 9 8 7 6 C B 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 5

Metoda nejvzdálenějšího souseda:. krok výpočtu Je vypočtena asociační matice, kde objekty (D E) C již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána největší vzdáleností od jeho členů (D, E, C) A+B D+E+C A+B 0.0.8 D+E+C.8 0.0 Je definován shluk dvou nejbližších objektů ((D E) C) (A B) Všechny objekty jsou spojeny, algoritmus je ukončen Dimenze 6 5 0 9 8 7 6 C B 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 6

Metoda nejvzdálenějšího souseda: výsledek analýzy Výsledek analýzy je vizualizován ve formě dendrogramu A B C D E Tree Diagram for 5 Cases Complete Linkage Euclidean distances 0 5 6 7 8 9 0 Linkage Distance Dimenze 6 5 0 9 8 7 6 C B 5 A 0 0 5 6 7 8 9 0 5 6 Dimenze D E 7

Metoda nejbližšího a nejvzdálenějšího souseda: interpretace výsledků Metoda nejbližšího souseda Metoda nejvzdálenějšího souseda A A B C Rozdílné zařazení objektu C B C D D E E 0 5 6 7 8 9 0 Linkage Distance 0 5 6 7 8 9 0 Linkage Distance Vzdálenost na níž došlo ke spojení shluku: u metody nejbližšího souseda znamená nejmenší vzdálenost objektů shluku, tedy ve shluku mohou existovat objekty s větší vzdáleností Vzdálenost na níž došlo ke spojení shluku: u metody nejvzdálenějšího souseda znamená největší vzdálenost objektů shluku, tedy objekty ve shluku už mohou být k sobě pouze blíže nebo stejně než je tato vzdálenost 8

FSTA: Pokročilé statistické metody Hierarchické divizivní shlukování

Hierarchické divizivní shlukování: postup Hierarchická divizivní shlukování fungují na principu výpočtu ordinační analýzy a dělení objektů podle os ordinačního prostoru, tedy dle směrů největší variability v datech Shlukování může být zastaveno po rozdělení všech objektů do shluků, po předem daném počtu kroků nebo po dosažení kritéria minimálního rozdílu mezi shluky Typickým příkladem je metoda TWINSPAN používaná v analýzách biologických společenstev Obecný postup hierarchického divizivního shlukování. Krok. Krok X. Krok Atd. 0

FSTA: Pokročilé statistické metody Nehierarchické aglomerativní shlukování

Nehierarchické aglomerativní shlukování: postup Do této skupiny lze zařadit metody hledající nejkratší spojnici mezi objekty ve vícerozměrném prostoru (i když lze vznést námitky proti nazývání těchto metod nehierarchickými) Metody hledají v asociační matici (prvním krokem je tak vždy výběr vhodné metriky vzdáleností/ podobností) propojení všech objektů s nejmenší sumou vzdáleností mezi propojenými objekty Na rozdíl od klasického hierarchického aglomerativního shlukování může být na jeden objekt napojeno několik dalších objektů Minimum spanning tree (Prim network)

FSTA: Pokročilé statistické metody Nehierarchické divizivní shlukování

Nehierarchické divizivní shlukování: postup Nejběžnější metodu je tzv. k means clustering Metoda zařazuje objekty do shluků na principu ANOVA, analogií je Wardova metoda shlukování v hierarchickém aglomerativním shlukování Počet shluků je předem definován, výběr nejvhodnějšího počtu shluků je prováděn buď expertně nebo pomocí matematických metod výběru optimálního počtu shluků (analýza vnitro a mezishlukových vzdáleností) V prvním kroku je určeno k objektů jako počáteční středy shluků (výběr může být náhodný, daný uživatelem nebo maximalizující počáteční vzdálenosti k objektů) Následně jsou objekty zařazeny do k shluků tak, aby byla minimalizována suma čtverců vzdáleností objektů k centroidůmjejich shluků Výpočet vzdáleností probíhá na bázi Euklidovské vzdálenosti, pro k means clustering na jiné metrice vzdálenosti/podobnosti je nezbytná kombinace s jinými metodami K means k= K means k= Analýza vždy nalezne zadaný počet shluků, i když výsledek nemusí být vždy prakticky smysluplný

Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ..07/..00/07.08 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE 5