Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

Obsah přednášy 1. Shluová analýza 2. Podobnost objetů 3. Hierarchicé shluování 4. Nehierarchicé shluování 5. Optimální počet shluů 6. Další metody 2

Učení bez učitele není dána výstupní lasifiace (veličina G) cíl: vytvoření shluů, tedy nalezení taových supin záznamů, teré jsou si navzájem podobnější než záznamy ostatní cíl: určení (vytvoření) výstupního vetoru G apliace: analýza DNA (hledání charateristicých sevencí); analýza trhu, rozpoznání nových segmentů; analýza obrazu rozpoznání hran a objetů; web-mining rozlišování různých typů doumentů; bezdrátová omuniace nalezení center supin čidel záladní metody jsou shluová analýza a asociační pravidla 3

Formulace úlohy je množina N objetů. Rozlad ={C 1,C 2,,C m } množiny je množina disjuntních, neprázdných podmnožin, teré dohromady tvoří. Pro ij: C C C C... C i j 0 1 2 m aždá množina C i se nazývá mponentou rozladu shluování je pa taový rozlad množiny, terý maximalizuje vzájemnou mezishluovou nepodobnost (nebo minimalizuje podobnost) 4

Metody a nástroje shluová analýza hierarchicá vs. nehierarchicá hierarchicá systém navzájem různých neprázdných podmnožin, přičemž průni libovolných dvou podmnožin je jedna z nich nebo množina prázdná v systému existuje alespoň jedna dvojice podmnožin, jejíž průni je jedna z těchto množin graf (binární strom) znázorňující hierarchicé shluování se nazývá dendrogram nehierarchicá různé neprázdné podmnožiny s prázdným průniem? ja se dělí medoty shluování 5

Vzdálenost mezi instancemi, metria Normalizace veličin aby byly vstupní veličiny souměřitelné, jsou normalizovány typicou normalizací je standardizované normální rozložení se střední hodnotou 0 a rozptylem 1 (ze z na x) z j 1 N Metriy Minowsého (p-norma) Manhattansá (též City bloc) Eulidovsá Hammingova N i1 z ij s j 1 N N i1 z ij z d p j 2 x 1 2 x ij z ij z n 1/ p p, y xi yi i1 s j j? z jaého důvodu se prování normalizace veličin 6

Vzdálenost mezi shluy Hierarchicé metody shluování dle metriy určující vzdálenost mezi dvěma shluy metoda průměrová (průměr ze všech vzájemných dvojic) metoda centroidní (vzdálenost aritmeticých průměrů prvů z aždého shluu) metoda nejbližšího souseda (dva nejbližší z obou shluů) metoda nejvzdálenějšího souseda (2 nejvzdálenější ze shluů) metoda mediánová (vzdálenost středního z prvů obou shluů) 7

Hierarchicé metody - princip Dělení podle postupu tvorby aglomerativní (od jednotlivých prvů=shluů postupným slučováním až jednomu shluu) divizní (na počátu jeden velý shlu, postupný rozlad až po jednotlivé prvy, jen první dělení 2 N-1-1 možností) dendrogram binární strom znázorňující hierarchicé shluování; aždý uzel představuje shlu; řezy stromu představují jednotlivé rozlady Co je to dendrogram? Co je divizní shluování, jaou má nevýhodu? 8

Hierarchicé metody - vlastnosti při opaovaném pousu nachází stejné řešení schopnost sledovat i linii, nejen podobu co do oblastí (závisí na typu metriy měřící vzájemnou vzdálenost shluů) výstupem je dendrogram aglomertaivní metoda jednoduchý algoritmus Jsou hierarchicé metody deterministicé nebo stochasticé? 9

Hierarchicé metody - algoritmus Aglomerativní metoda nultý rozlad, aždý jednotlivý prve je považován za samostatný shlu v i-tém rou najdeme taovou dvojici shluů, jejíž vzdálenost je nejmenší (nepodobnost je nejmenší) a tyto shluy sjednotíme v posledním rou jsou shluy spojeny a vzniá jeden shlu odpovídající celé definiční množině 10

Hierarchicé metody (centroidní) přílad 1 11

Hierarchicé metody přílad 1 12

Hierarchicé metody (nejbližší s.) přílad 2 14

Hierarchicé metody (NS,C) přílad 3 17

K-means vlastnosti při vytváření malého počtu shluů z velého počtu dat pro data vantitativní bez odlehlých hodnot (je třeba normalizovat jednotlivé veličiny) poaždé vede jinému řešení rychle iteruje i při velém počtu dat, nalezení zpravidla loálního optima vhodné pro větší počet dat Je metoda K-means deterministicá? 20

K-means princip dáno: data X, počet shluů K (cíleně, náhodně, heuristiy) cíl: nalezení K shluů ta, že mezishluová suma čtverců bude minimalizována princip určení počátečních K charateristicých vetorů μ v cylu opauj: podle charateristcého vetoru μ přiřaď všem bodům jejich třídu spočítej z bodů jednoho shluu jejich nový charateristicý vetor μ podle těžiště nebo průměru uončovací podmína: onec, poud 1 (nebo 2) nová iterace nezpůsobí změnu lasifiace ani jednoho z prvů 21

K-means algoritmus K shluů, vstupní data x 1,,x N 1. Počáteční určení K center (náhodné, apriorní znalost, těžiště všech bodů a extrémy, atd.) μ j 2. Klasifiuj do tříd C 1,,C K podle minima eulidovsé vzdálenosti od vetoru μ j 3. Opauj v cylu - aždému prvu x i je přiřazena lasifiace g i - přepočítej vetory μ j g i arg min j 1,..., K x i j j N 1 xi, gi C C i1 0, gi C j j j 22

K-means přílad 23

K-means přílad 1 (náhodné rozdělení) 24

K-means přílad 1 (náhodné rozdělení) 25

K-means přílad 2 26

Srovnání hierarchicé a nehierarchicé metody 30

Optimální počet shluů Ja určit optimální počet shluů? souvisí s mírou separability (preprocessing) mělo by rozlišit více a méně podobné shluy Řada otáze má záležet na počtu prvů ve shluu? má být závislé na tvaru? má být závislé na prostoru, terý shlu zabírá? má být citlivé na outliers? 31

Absolutní srovnání Optimální počet shluů srovnávají se přímo hodnoty indexů pro onrétní, předem dané počty shluů (typicé pro -means metody) Calinsi and Harabasz procento proměnlivosti Davies-Bouldin Index Diferenční srovnání srovnávají se diference indiátoru při rostoucím počtu shluů Hartigan Krzanowsi and Lai V čem spočívá princip absolutních metod pro srovnání různých rozladů? 32

Calinsého a Harabaszova metoda 1/3 Je dána poměrem mezisupinové a vnitrosupinové čtvercové vzdálenosti Vnitrosupinová čtvercová vzdálenost pro shluů (within-clustr sum of squares): W r1 ic r x i x C r 2 de x C r je průměr prvů ve shluu C r je počet shluů 33

34 Calinsého a Harabaszova metoda 2/3 Mezisupinová čtvercová vzdálenost pro shluů (between-clustr sum of squares): je průměr prvů ve shluu C r je počet shluů Míra separability shluů (čím větší, tím lepší) jest: r C r x x C B r 1 2 x C r 1 / 1 / N W B N W B I CH Shluová analýza, Hierarchicé, Nehierarchicé, Optimum, Dodate

Calinsého a Harabaszova metoda 3/3 http://www.mathwors.com/help/stats/clustering.evaluation.calinsiharabaszevaluationclass.html http://businessforecastblog.com/wp-content/uploads/2012/10/ncluster2.png a) Maximální hodnota pro =3, v datech se nacházejí 3 lastry b) Maximální hodnota pro =N (počet prvů), stanovení počtu shluů není jednoznačné 35

Procento proměnlivosti PV Využívá mezishluové sumy čtverců WSS vypočtené z vnitrosupinové vzdálenosti W N je počet prvů m je počet veličin popisujících prve (dimenze, počet znaů) je počet shluů WSS Nm Nm m W r r1 Procento proměnlivosti (100% pro =1, 0% pro =N) PV WSS 100% WSS 1 36

Davies-Bouldinův index Průměrná vzdálenost uvnitř shluu i jc i d x C C j i i, x C i Vzdálenost mezi dvěma shluy ij d x, x C i C j Výsledný index (čím je menší, tím lepší separabilita) I DB 1 i1 i max ji ij j x C ije průměr prvů ve shluu C i a je j-tý prve ve shluu C i je počet shluů d(x,y) je vzdálenost mezi prvy x a y x j C i 37

Davies-Bouldinův index http://www.mathwors.com/help/stats/clustering.evaluation.daviesbouldinevaluationclass.html http://lin.springer.com/article/10.1007%2fs11517-009-0561-x/fulltext.html Každý navržený shlu je charaterizován svou nejhorší rozlišitelností vůči ostatním navrženým shluům ( max v definici indexu). Průměr těchto nejhorších případů pa definuje index samotný. Minimum indexu určuje odhad nejvhodnějšího počtu shluů. 38

39 Diferenční indexy Hartiganův index Krzanowsi and Lai 1) ( 1 ) ( 1 n W W H Shluová analýza, Hierarchicé, Nehierarchicé, Optimum, Dodate 1 2/ 2/ 2/ 1 2/ 1) ( 1) ( ) ( p p p p W W W W KL

Dodate Metody měnící počty shluů MacQueen se dvěma parametry Wishartova metoda RELOC (4 parametry) Metoda ISODATA (2 parametry) 40