4.6.2 Analýza shluků CLU

Transkript

1 462 Analýza shluků CLU Analýza shluků (Cluster analysis CLU) patří mezi metody které se zabývaí vyšetřo-váním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich klasifikací do tříd čili shluků Hodí se zeména tam kde obekty proevuí přirozenou tendenci se seskupovat Podle způsobu shlukování se postupy dělí na hierarchické a nehierarchické Hierarchické se dělí dále na aglomerativní a divizní Hierarchické postupy sou založeny na postupném spoování obektů a eich shluků do dalších větších shluků eprve se vypočte základní matice vzdáleností mezi obekty U aglomerativního shlukování se dva obekty eichž vzdálenost e nemenší spoí do prvního shluku a vypočte se nová matice vzdáleností v níž sou vynechány obekty z prvního shluku a naopak tento shluk e zařazen ako celek Celý postup se opakue tak dlouho dokud všechny obekty netvoří eden velký shluk nebo dokud nezůstane určitý předem zadaný počet shluků Divizní postup e obrácený Vychází se z množiny všech obektů ako ediného shluku a eho postupným dělením získáme systém shluků až skončíme ve stadiu ednotlivých obektů Výhodou hierarchických metod e nepotřebnost informace o optimálním počtu shluků v procesu shlukování; tento počet se určue až dodatečně Při shlukování vznikaí dva základní problémy: (a) způsob měření vzdáleností mezi obekty I když existue celá řada měr vzdáleností (vícerozměrných metrik) nečastěi se užívá euklidovská metrika která e přirozeným zobecnením běžného pomu vzdálenosti; (b) volba vhodné shlukovací procedury dle zvoleného způsobu metriky Metody metriky shlukování sou Metoda průměrová (Average): vzdálenost dvou shluků se počítá ako průměr z možných mezishlukových vzdáleností dvou obektů kdy se mezishlukovou vzdáleností obektů rozumí vzdálenost dvou obektů z nichž každý patří do iného shluku ebližší sou shluky které maí nemenší průměrnou vzdálenost mezi všemi obekty ednoho a všemi obekty druhého shluku Dendrogramy maí strukturu podobnou dendrogramům metody nevzdáleněšího souseda pouze spoení e provedeno při obvykle vyšších vzdálenostech Metoda centroidní (Centroid): vzdálenost shluků se počítá ako euklidovská vzdálenost eich těžišť ebližší sou ty shluky které maí nemenší vzdálenost mezi těžišti Metoda nebližšího souseda (Single earest): kritériem pro vytváření shluků e minimum z možných mezishlukových vzdáleností obektů Metoda tvoří nový shluk na základě nekratší vzdálenosti mezi shluky (či obekty) a neumí proto rozlišit špatně separované shluky Je zde silná tendence ke tvorbě řetězců Jsou-li obekty na opačních koncích řetězce zcela nepodobné řetězování může vést až ke zcela mylným závěrům a druhé straně e to edna z mála metod která umí roztřídit a rozlišit i neeliptické shluky Metoda nevzdáleněšího souseda (Complete Furthest): počítá vzdálenost dvou shluků ako maximum z možných mezishlukových vzdáleností obektů Probíhá podobně ako metoda Single s ednou důležitou výimkou: vzdálenost (či nepodob-nost) mezi shluky e určována vzdáleností (či nepodobností) mezi dvěma nevzdá-leněšími obekty každý přitom e z iného shluku Proto všechny obekty ve shluku sou klasifikovány na základě maximální vzdálenosti či minimální podobnosti vůči obektům ve druhém shluku Metoda mediánová (Median): de o isté vylepšení centroidní metody neboť se snaží odstranit rozdílné váhy které centroidní metoda dává různě velkým shlukům Wardova metoda e založena na minimalizaci ztráty informace při spoení dvou tříd V každém kroku e uvažován takový možný pár obektů (či shluků) aby suma čtverců odchylek od střední hodnoty ESS = (x i & x) 2 dosáhla při vzniku shluku svého minima ehierarchické shlukovací metody: u metody typických bodů (Seeded) uživatel na základě svých věcných znalostí určí které obekty maí být typickými představiteli nově vytvořených shluků a systém rozdělí obekty do shluků podle eich euklidovské vzdálenosti od těchto typických obektů V nehierarchických shlukovacích metodách e počet shluků obvykle předem dán i když se v průběhu výpočtu může změnit Zůstává-li počet shluků zachován hovoříme o nehierarchických metodách s konstantním počtem shluků v opačném případě o nehierarchických metodách s optimalizovaným počtem shluků ehierarchické metody zahrnuí dvě základní varianty - optimalizační metody a analýzu módů medoidů Optimalizační nehierarchické metody hledaí optimální rozklad přeřazováním obektů ze shluku do shluku s cílem minimalizovat nebo maximalizovat něakou charakteristiku rozkladu Metody označované ako analýza módů medoidů představuí hledání rozkladu do shluků kde shluky sou chápány ako místa se zvýšenou koncentrací obektů v m-rozměrném prostoru proměnných Místo výchozí matice vzdáleností může být v některých případech ke shlukování použita i korelační matice n

2 (a) Hierarchické shlukování Analýza shluků patří mezi metody zabývaící se vyšetřováním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich roztříděním do tříd čili shluků Hodí se zeména tam kde obekty proevuí přirozenou tendenci se seskupovat Analýzou shluků budeme sledovat a vyšetřovat ednak podobnost obektů analyzovanou pomocí dendrogramu obektů a ednak podobnost proměnných analyzovanou pomocí dendrogramu proměnných Dendrogram diagram shluků nebo vývoový strom se obeví pouze v případě zadání hodnot původních proměnných a nikoli při zadání maticí vzdáleností Výsledkem e zobrazení hodnot ve dvorozměrném prostoru kde osy tvoří zadané proměnné Obeví se také obkroužení obektů v ednotlivých shlucích Dendrogram podobnosti obektů e standardní výstup hierarchických shlukovacích metod ze kterého e patrná struktura obektů ve shlucích Dendrogram podobnosti proměnných odhalue nečastěi dvoice či troice (obecně m-tice) proměnných které sou si velmi podobné a silně spolu koreluí Odhalue proměnné které sou ve společném shluku které sou si tím pádem značně podobné a které sou také vzáemně nahraditelné To má značný význam při plánování experimentu a respektování úsporných ekonomických kritérií ěkteré vlastnosti (či proměnné) není třeba vůbec měřit protože sou snadno nahraditelné inými a nepřispívaí do celku velkou vypovídací schopností Míra věrohodnosti: dendrogram lze sestroit celou řadou technik Prvním kritériem věrohodnosti čili těsnosti proložení při volbě nelepšího dendrogramu ež nelépe odpovídá struktuře obektů a proměnných mezi obekty e kofenetický korelační koeficient CC Je to Pearsonův korelační koeficient mezi skutečnou a predikovanou vzdáleností založenou na dendrogramu Je-li tato hodnota větší než 075 e obvykle nulová hypotéza o dané struktuře zamítnuta Hodnota 09 svědčí že dendrogram vůbec neodpovídá skutečné struktuře dat Druhým kritériem těsnosti proložení e kritérium delta které měří stupeň přetvoření distorze spíše než stupeň podobnosti ritérium delta e definováno vztahem ) A ' <k <k *d k & d ( k *1/A (d ( k )1/A * kde A = 05 nebo 1 a d i e vzdálenost získaná z dendrogramu Jsou žádoucí hodnoty delta blízké nule Řada autorů ukázala že metoda průměrová vede obvykle k nelepšímu dendrogramu Postup shlukové analýzy 1 Volba vstupní databáze: zadává se typ dat (a) proměnných (sloupců) analyzovaných obektů (řádků) (b) sloupců matice vzdáleností (c) sloupců korelační matice 2 Volba druhu veličin: zadává se typ užitých veličin v datech která mohou být (a) intervalová (b) ordinální (c) nominální (d) symetrická binární (e) asymetrická binární (f) poměrová 3 ázev obektů: zadání pomenování či men ednotlivých obektů umístěných v řádcích které se mohou obevit v dendrogramu místo indexů (pořadových čísel) obektů 4 Typ shlukovací techniky: volba metody z možností: ednoduchá průměrová (Average) skupinového průměru centroidní (Centroid) nebližšího souseda (Single earest) nevzdáleněšího souseda (Complete Furthest) mediánová (Median) Wardova a flexibilní 5 Volí se druh užité vzdálenosti: vzdálenosti mohou být Eukleidova metrika čili geometrická vzdálenost Hammingova metrika čili Manhattanská vzdálenost zobecněná Minkowskiho metrika a Mahalanobisova metrika 6 Postup linkování a zařazení do shluků: tabelární výpočet vzdáleností (nebo podobností) mezi obekty a shluky a postupné vytváření dendrogramu Postupy sou (1) metodou hierarchického shlukování (2) shlukování metodou nebližších středů (3) shlukování metodou středů-medoidů a (4) metodou fuzzy shlukování 7 Výpočet skutečných a predikovaných vzdáleností v dendrogramu: sou porovnány skutečné vzdálenosti mezi obekty a vypočtené vzdálenosti (predikované) v dendrogramu eich rozdíl a konečně i procentuální vyádření tohoto rozdílu 8 Hledání nelepší techniky tvorby dendrogramu: dle bodu 4 a 5 lze k sestroení optimálního dendrogramu kombinovat řadu technik Rozhodčím kritériem věrohodnosti sou především kofenetický korelační koeficient CC obě míry těsnosti proložení delta ale také další kritéria: mezishluková suma čtverců WSS procento variace PV silueta s průměrná silueta SC Wilkova statistika λ rozdělovací koeficienty Dunnův F(U) a aufmanův D(U) A

3 9 Vysvětlení nelepšího dendrogramu podobností obektů: interpretace optimálního dendrogramu podobnosti ednotlivých obektů e prvním a nedůležitěším cílem shlukové analýzy 10 Vysvětlení nelepšího dendrogramu podobností proměnných: interpretace optimál-ního dendrogramu podobnosti ednotlivých proměnných odhalí souvislosti ve struktuře obektů analyzované databáze a e druhým důležitým cílem shlukové analýzy (b) Shlukování metodou nebližších středů (-Means) Při vytváření malého počtu shluků z velkého počtu obektů se eví neužitečněší shlukovací metodou Vyžadue spoité proměnné a především bez odlehlých hodnot Diskrétní data mohou být rovněž analyzována ale mohou způsobit problémy Princip metody spočívá v rozdělení n obektů o m proměnných do k shluků tak že mezishluková suma čtverců e přitom minimalizována Jelikož počet možných uspořádání e enormě veliký není praktické očekávat vždy nelepší řešení Algoritmus nalezne spíše optimum lokální než globální Je to takové uspořádání shluků kdy iž přemístění obektu z ednoho shluku do druhého nezpůsobí snížení sumy čtverců Algoritmus pracue opakovaně startue vždy z iného počátečního uspořádání akonec vybere optimální řešení ze všech možných dosažených uspořádání shluků Uživatel zadává počet shluků ež maí být nalezeny Pak sou vytvořeny prostorové shluky nalezením souboru středů shluků tak že každý obekt e přiřazen do ednoho shluku načež sou určeny nové shluky a celý proces se opakue Předpokládeme n obektů rozdělených do k shluků Pak k-tý shluk obsahue n obektů aždý obekt e v ednom řádku popsán m proměnnými Chyběící hodnota i-té proměnné v -tém řádku u k-tého shluku e označena δ Data x sou předem standardizována a označena z ik i i Počáteční přiblížení ovlivňue konečné uspořádání shluků Proto algoritmus pro každý pokus zcela náhodně přiřazue každý obekt ednomu shluku Toto uspořádání e pak optimalizováno Pokus nastartovat proces z rozličných náhodných uspořádání vysoko zvýší pravděpodobnost nalezení globálního optima počtu shluků ritérium věrohodnosti: de o kritérium těsnosti proložení které e založeno na srovnání rozličných konfigurací shluků a vychází z mezishlukové sumy čtverců WSS definované vztahem WSS ' nm nm & m k m n k '1 (1 & * ik )(y i & c ik ) 2 kde c e střední hodnota (průměr) i-té proměnné v k-tém shluku Procento variace (proměnlivosti) e definováno ik vztahem: PV ' 100% WSS WSS 1 Chyběící data: lze řídit vypouštění obektů s chyběícími hodnotami proměnných pomocí procenta chyběících hodnot u proměnných Obekty které maí více chyběících proměnných než dovolené procento sou z další analýzy vypuštěny (c) Shlukování metodou středů-medoidů Medoid čili střed shluku e střední obekt pro který platí že průměrná vzdálenost k ostatním obektům v tomto shluku e minimální Je-li požadováno k shluků bude existovat také k medoidů Po nalezení medoidů sou data klasifikována do shluků vždy okolo nebližšího medoidu Medoidy a shluky se vytvářeí na základě vzdáleností čili nepodobností (dissimilarities) Proměnné shluku Druhů proměnných e celá řada: Intervalové sou spoité kladné či záporné v lineární škále např výška hmotnost cena teplota čas atd Ordinální sou pořadová čísla stupnice hodnotící něakou vlastnost např silný nesouhlas (5) nesouhlas (4) neutrální (3) souhlas (2) a silný souhlas (1) Poměrové sou kladné hodnoty kdy vzdálenost mezi dvěma čísly e stená když i eich poměr e stený např mezi 3 a 30 e stená ako mezi 30 a 300 chemická koncentrace intenzita záření absorbance atd ominální sou proměnné které vyadřuí pouze kvalitu a nikoliv kvantitu např PSČ rasa barva název města atd Symetrické binární: maí dvě možnosti obvykle ano (1) ne (0) Asymetrické binární: přítomnost či nepřítomnost zřídka se vyskytuící události kdy nepřítomnost není tak důležitá např osoba má izvu na tváři a tím e lépe identifikovatelná

4 Späthova metoda Metoda minimalizue účelovou funkci přemísťováním obektů z ednoho shluku do druhého Začíná u počátečního uspořádání shluků algoritmus pak nade lokální minimum inteligentním přesouváním obektů ze shluku do shluku Jakmile se nepřemístí už žádný obekt metoda terminue Lokální minimum však nemusí být globálním Aby program překonal toto omezení zopakue se několikrát hledání vždy z iného startovacího uspořádání a nelepší uspořádání shluků e nakonec bráno za výsledné Za účelovou funkci se bere celková vzdálenost mezi všemi obekty ve shluku podle vzorce D ' d i kde e celkový počet shluků d i e vzdálenost mezi i-tým a -tým obektem a c e soubor všech obektů ve shluku k Metoda PAM (Partition Around Medoids) Algoritmus se opět pokouší minimali-zovat celkovou vzdálenost D ve dvou krocích: 1 alezne se reprezentativní soubor k obektů První obekt má nekratší vzdálenost ke všem ostatním obektům čili představue střed Pak se k-1 obektů nachází tak že hodnota D e co možná nemenší 2 Možné alternativy polohy k obektů sou vybírány iteračním způsobem Algoritmus vyhledává dosud nezařazené obekty a přemísťue e tak aby se hodnota D snižovala Iterace skončí akmile změny nezpůsobí další snížení hodnoty D Silueta: poskytue klíčovou informaci o dobrém a špatném shluku Hodnota siluety s se vypočte postupem: 1 Obekt i e ve shluku A a má průměrnou vzdálenost a ke všem obektům ve svém shluku Je-li ve shluku A ediný obekt e a = 0 2 Sousední shluk B obsahue obekty které sou nebližší k obektu i ve shluku A a b e průměrná vzdálenost mezi obektem i a všemi obekty ve shluku B 3 Silueta s obektu i se vyčíslí následovně: když shluk A obsahue pouze eden obekt e s = 0 dyž a < b e s = 1 - a/b dyž a> b e s = b/a - 1 dyž a = b e s = 0 Silueta se vyčíslí pro každý obekt Hodnota siluety se mění od -1 do +1 a e mírou úspěšné klasifikace do shluků při porovnání vzdáleností uvnitř shluku A se všemi vzdálenostmi obektů nebližšího souseda B dle pravidla: 1 Je-li s blízko +1 obekt i e dobře klasifikován do shluku A protože eho vzdálenosti k ostatním obektům v tomto shluku sou podstatně kratší než vzdálenosti k obektům nebližšího souseda B 2 Je-li s blízko nule obekt i se nachází kdesi uprostřed mezi shluky A a B a čistě náhodou byl přiřazen do shluku A 3 Je-li s blízko -1 obekt i e špatně klasifikován Vzdálenosti k ostatním obektů ve svém shluku sou mnohem větší než vzdálenosti k obektům nebližšího souseda B Otázkou pak e proč byl vlastně zařazen do shluku A Určení počtu shluků Přehlednou statistikou e průměrná silueta s počítaná přes všechny obekty Tato hodnota sumarizue ak těsně shlukové uspořádání tato prokládá analyzovaná data Snadný způsob nalezení správného počtu shluků spočívá v nalezení takového počtu který maximalizue průměrnou siluetu Označme maximální hodnotu průměrné siluety všech shluků k symbolem SC a pak budeme rozlišovat následuící typy shlukových uspořádání: i0c 0c SC od 071 do 100 od 051 do 070 od 026 do 050 od -100 do 025 Vysvětlení uspořádání do shluků Silná a dobrá struktura Ještě přiatelná struktura Slabá struktura asi umělá Je třeba naít novou lepší aprosto nevhodná struktura Diagnostika dobrého shlukování Čárový diagram siluet uspořádáný podle stoupaícího počtu shluků a hodnoty siluety dobře prokazue nelepší uspořádání shluků Důležitým kritériem e kladná hodnota siluety s která by měla být také větší než 050 Je-li silueta pro některé shluky menší než 050 nebo dokonce záporná sou takové shluky nepravděpodobné a měli bychom hledat iné Další analýza struktury obektů Po úspěšném nalezení počtu shluků a nelepšího shlukového uspořádání by měla následovat diskriminační analýza která statisticky testue ak dobře byly obekty (řádky) roztříděny do shluků Testování se provádí pomocí Wilkovy statistiky λ Vedle diskriminační analýzy sou sestroeny různé rozptylové diagramy ve kterých e počet shluků použit ako důležitá proměnná Teprve diagramy odhalí a vysvětlí pravý smysl klasifikační analýzy do shluků

5 (d) Fuzzy shlukování Fuzzy shlukování zobecňue všechny shlukovací metody tím že umožňue shlukování ednoho obektu do více než ednoho shluku zatímco v běžném shlukování e každý obekt členem pouze ednoho shluku Předpokládeme že máme shluků a budeme definovat soubor proměnných m m m které představuí pravděpodobnost že i1 i2 i obekt i e klasifikován do k-tého shluku V běžném shlukovacím algoritmu e edna z těchto proměnných rovna edné a zbytek roven nule To představue skutečnost že takový algoritmus klasifikue každý obekt do ednoho a právě ednoho shluku Ve fuzzy shlukování e účast obektu čili přítomnost obektu rozdělena do všech shluků Proměnná m může ik zde být rovna 1 nebo 0 a suma těchto hodnot musí být rovna 1 azveme tento process fuzzifikací shlukové konfigurace Proces má výhodu že nenutí obekt aby byl zařazen pouze do ediného specifického shluku evýhodou však e že se zde obevue mnohem více informací které musí být vysvětleny Fuzzy algoritmus minimalizue účelovou funkci C která e funkcí neznámých účastí ve shluku a dále funkcí i vzdáleností dle vztahu C ' m 2 ik m 2 k d i '1 kde m ik představue neznámou účast obektu i v k-tém shluku k a d i e vzdálenost mezi obekty i a Účasti ve shluku sou předmětem omezení a musí být nezápornými čísly a dále účasti pro eden obekt musí být v sumě rovny 1 To znamená že účasti maí stená omezení ako by to byly pravděpodobnosti že individuum patří do isté skupiny Míra věrohodnosti: edním z neobtížněších úkolů ve shlukové analýze e nalezení vhodného počtu shluků Velikost fuzzifikace v řešení se dá změřit Dunnovým rozdělovacím koeficientem který představue míru ak těsně padne fuzzy řešení na odpovídaící pevné shluky Za pevné shluky budeme považovat klasifikaci každého obektu do shluku který má nevětší účast Dunnův rozdělovací koeficient se vyádří vzorcem 2 '1 m 2 k F(U) ' 1 m 2 ik oeficient leží v intervalu od 1/ do 1 Hodnoty F(U) = 1/ se dosáhne když všechny účasti sou rovny 1/ Hodnota F(U) = 1 platí když pro každý obekt e účast ednotková a zbytek e roven nule Dunnův rozdělovací koeficient může být také normován tak že eho hodnota se mění od 0 (úplně fuzzy) do 1 (pevný shluk) ormovaná verze má tvar: F(U) & (1/) Fc(U) ' 1 & (1/) Další koeficient představue aufmanův rozdělovací koeficient D(U) ' 1 Dc(U) ' (h ik & m ik ) 2 oeficient má hodnotu danou intervalem od D(U) = 0 (pevné shluky) do D(U) = 1-(1/) (úplně fuzzy) ormovaná verze tohoto koeficientu má tvar D(U) 1 & (1/) Oba normované koeficienty Fc(U) a Dc(U) poskytuí dohromady dobrou indikaci optimálního počtu shluků celočíselná hodnota by měla být volena tak že Fc(U) bude nabývat malé a Dc(U) velké hodnoty