Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Ing. Jitka Svobodová Ing. Jana Pružinová Abstrakt Příspěvek diskutuje možnosti zpracování velkých datových souborů pomocí klasifikačních metod s využitím statistického programu IBM SPSS. Cílem tohoto příspěvku je popsat metody analýzy shluků a jejich aplikace v praxi ve vzájemné souvztažnosti se statistickým programem IBM SPSS. Pomocí shlukové analýzy lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků. Statistický program IBM SPSS nabízí například pro klasifikaci metodu k-průměrů, hierarchické seskupování či dvoustupňové seskupování. Klíčová slova Klasifikace, podobnost, vzdálenost, analýza, shlukování, SPSS Abstract This paper discusses possibilities of multidimensional data processing by cluster analysis and using statistical software. The aim of this paper is to describe methods of cluster analysis, their practical application using statistical software IBM SPSS. By using cluster analysis, order less objects can be classified into several internally homogeneous classes or clusters. The statistical software SPSS offers methods to classify objects such as k-means for classification clustering, hierarchical clustering or Two Step analysis. Key Words Classification, similarity, distance, analysis, cluster, SPSS
1 ÚVOD Cílem příspěvku je popis možností zpracování velkých datových souborů pomocí klasifikačních metod s využitím statistického programu IBM SPSS s ohledem na jeho novinky, které přicházejí spolu s rozvíjejícími se technologiemi. Pro nalezení vazeb mezi objekty se využívají klasifikační metody vícerozměrné statistiky. Tyto metody jsou postupy, kdy se buď jeden objekt zařadí do jedné třídy, pro to se používá například diskriminační analýza DA, nebo díky nimž se uspořádá neuspořádaná skupina objektů do několika sourodých shluků a pro tento účel se používá analýza shluků. (Meloun 2002) Tento příspěvek je zaměřen přímo na shlukovou analýzu. Shluková analýza se vzhledem k náročnosti výpočtů provádí prakticky výlučně pomocí statistického softwaru, neboť statistické softwary nabízejí nové možnosti algoritmů. Každá z metod, které budou v příspěvku popsané, má svá specifika. Metoda dvoustupňového seskupování se od ostatních tradičních technik seskupování odlišuje škálovatelností, manipulací s kategorizovanými a číselnými proměnnými a automatickou volbou počtu shluků. Pomocí seskupování metodou k-means lze zpracovat poměrně rychle a jednoduše velké množství případů, avšak je třeba předem určit počet skupin. Postup této metody samozřejmě předpokládá, že byl vybrán správný počet skupin a že byly zahrnuty všechny relevantní proměnné. Pokud ne, mohou být výsledky zavádějící. Algoritmus hierarchického seskupování začíná v jednotlivých skupinách a kombinuje je, dokud nezbývá pouze jedna skupina. Pomocí hierarchického seskupování lze analyzovat hrubá data. Metoda zobrazuje statistiky v každé fázi, aby mohlo být vybráno vždy to nejlepší řešení. (IBM Corporation 2011) 2 METODA ANALÝZY SHLUKŮ Shluková analýza (Cluster analysis, CLU) je jedním z nástrojů vícerozměrných statistických metod, pomocí kterého je možné klasifikovat množiny objektů do několika shluků, a to na základě podobnosti (nepodobnosti, vzdálenosti). Užití shlukové analýzy lze využít tam, kde se objekty či proměnné rozpadají do tříd. Jinými slovy, množina objektů má sklon se seskupovat do tak zvaných shluků. Po nalezení těchto podobných shluků mohou být jednotlivé skupiny charakterizovány a popsány. Uplatnění metod této analýzy je poměrně široké. Nemusí nutně sloužit pouze pro klasifikaci objektů či proměnných, lze jí také využít pouze jako pomocný postup pro výběr objektů při analýze velkých datových souborů a následně lze analyzovat jen data zástupců těchto zjištěných shluků. (Hebák 2007) Základním problémem shlukové analýzy je kvantitativní vyjádření podobnosti či vzdálenosti objektů. V jednotlivých krocích algoritmů posuzujeme podobnost, respektive vzdálenost dvou objektů, dvou shluků nebo objektu a shluku. V některých případech je způsob hodnocení podobnosti dán přímo shlukovací metodou, avšak obvykle tomu tak není. Proto nejvhodnější míru podobnosti vybíráme, a sice z hlediska shlukovaných objektů a z hlediska použité metody shlukování. Řada shlukovacích metod vychází z duálního pojmu k míře podobnosti, a to z míry nepodobnosti, která se v mnoha případech jeví jako výhodnější. Pro
tyto míry nepodobnosti jsou typické funkce založené na vzdálenosti objektů. (Kubanová 2003) O způsobu hodnocení vzdálenosti či podobnosti objektů se rozhoduje po provedení výběru proměnných, které mají charakterizovat vlastnosti shlukovaných objektů, a po zjištění jejich hodnot. První etapou realizace shlukovacího algoritmu bývá právě výpočet příslušných měr pro všechny páry objektů. Vzniká tak symetrická čtvercová matice typu n x n, která má na diagonále nuly, v případě, že jde o matici měr vzdálenosti D, nebo jedničky, pokud jde o matici měr podobností A. Problém může nastat při ukládání matice v paměti počítače, pokud je počet objektů příliš velký. Tento problém pak ovlivní volbu algoritmu. (Hebák 2007) Existuje celá řada definic míry podobnosti, podle Melouna (2004) může být podobnost měřena způsoby, které se dají zařadit do jedné ze tří následujících skupin: Korelační míry Základní mírou podobnosti dvou objektů či znaků xi a xj může být Pearsonův párový korelační koeficient r. Objekty jsou si tím podobnější, čím je jejich párový korelační koeficient větší a bližší hodnotě 1. To se týče objektů či znaků vyjádřených v kardinální škále. V případě ordinální škály (pořadová čísla) je analogickou mírou podobností Spearmanův korelační koeficient. Míry vzdálenosti Představují nejčastěji užívané míry, které jsou založené na prezentaci objektů v prostoru, jehož souřadnice tvoří jednotlivé znaky. Nejčastější vzdálenostní mírou je Eukleidovská vzdálenost zvaná také geometrická metrika, která představuje délku přepony pravoúhlého trojúhelníka. Její výpočet je založen na Pythagorově větě. Kromě toho se užívá také čtverec Eukleidovské vzdálenosti, který tvoří základ Wardovy metody shlukování. Pokud jsou použita nestandardizovaná data, vzniká u vzdálenostních měr problém, kdy mezi shluky mohou být velké rozdíly, díky často veliké odlišnosti jednotek měření. Největší rozptýlení mezi shluky bude u čtverce Eukleidovské vzdálenosti. Se změnou měřítka nebo změnou jednotek jednoho ze znaků se významně změní pořadí podobností. Pokud se do vztahu pro vzdálenost zahrnou také vazby mezi znaky, vyjádřené kovarianční maticí C, vznikne nová statistická míra, zvaná Mahalanobisova metrika. (Meloun 2004) Nevýhody měr vzdáleností spočívají v jejich závislosti na použitých měřících jednotkách, což někdy brání smysluplnému pořízení jakéhokoli součtu pro různé proměnné. Jsou-li proměnné uvažovány v součtu se stejnými vahami, silně korelované proměnné mají nepřiměřeně velký vliv na výsledek. Východiskem může být transformace proměnných. Nežádoucí vliv měřících jednotek lze odstranit tak, že se všechny hodnoty j-té proměnné vydělí vyrovnávacím faktorem, kterým může být například aritmetický průměr nebo směrodatná odchylka. (Hebák 2007)
Míry asociace Míry asociace podobnosti se používají k porovnání objektů v případě, že jsou jejich znaky nemetrického charakteru (např. binární proměnné). Příkladem může být situace, kdy respondent odpověděl na řadu otázek odpovědí ano nebo ne. Míra asociace pak vyjadřuje stupeň souhlasu každého páru respondentů. Nejjednodušší mírou asociace bude procento souhlasu, kdy oba respondenti odpověděli na danou otázku ano nebo ne, tedy 1 nebo 0. (Meloun 2004) Po posouzení podobnosti následuje spojování podobných kategorií. Jednou z možností, jak lze spojit podobné kategorie, je pomocí grafického znázornění vztahů. Tento způsob je vhodný především pokud je kategorií více. Pravděpodobně nejčastěji se používá dendrogram, v němž se nejprve graficky spojí dva nejbližší (nejpodobnější) objekty (kategorie). V dalších krocích se vychází vždy z rozměrově menší matice vzdáleností, která vzniká vynecháním příslušných dvou řádků a dvou sloupců a doplněním řádku a sloupce, obsahujících vzdálenosti ostatních objektů či shluků od právě vytvořeného shluku. V této matici se opět najde nejnižší hodnota a spojí se odpovídající shluky. Postup se opakuje do té doby, než jsou všechny shluky spojeny do jediného. (Řezanková 2007) Podle Melouna (2004) lze pomocí shlukové analýzy hodnotit jednak podobnost objektů, analyzovanou pomocí dendrogramu objektů, a jednak podobnost znaků, analyzovanou pomocí dendrogramu znaků. Dendrogram shluků nebo jinak vývojový strom, se konstruuje pouze v případě, kdy je k dispozici matice původních znaků. Dendrogram podobnosti znaků ukazuje rozlišení znaků ve shlucích. Znaky blízko sebe jsou propojeny spojovací úsečkou hodně nízko, mají malou vzdálenost čili značnou vzájemnou podobnost. Naopak znaky propojené hodně vysoko mají malou podobnost a mezi sebou vykazují velkou vzdálenost. Dendrogram podobnosti objektů je standardní výstup hierarchických shlukovačích metod, ze kterého je patrná struktura objektů ve shlucích. Dendrogram podobnosti znaků odhaluje nejčastěji dvojice či trojice znaků, které jsou si velmi podobné a silně spolu korelují. Znaky, které jsou ve společném shluku, si jsou značně podobné a jsou také vzájemně nahraditelné. (Meloun 2004) Existuje mnoho různých typů shlukové analýzy, které se liší postupem měření vzdálenosti mezi jednotlivými shluky. Dle Melouna (2002) je možné shlukovou analýzu dělit na hierarchické a nehierarchické shlukování. Přičemž metody hierarchického shlukování se člení dle podobnosti či nepodobnosti na aglomerativní a divizní postupy shlukování. (Meloun 2002)
2.1 Hierarchické shlukování Metoda si klade za cíl spojování objektů a jejich shluků do dalších, větších shluků. Výhodou této metody je, že není potřeba znát optimální počet shluků. Tento počet se určuje dodatečně. (Meloun 2002) 2.1.1 Aglomerativní metody hierarchického shlukování Aglomerativní hierarchický postup patří k nejužívanějším postupům ve shlukovací analýze. Je možné ho také nazývat jako AGNES (AGlomerative NESting). V případě aglomerativního shlukování je výchozím stavem takový, kdy každý objekt představuje samostatný shluk. Dále se dva objekty, jejichž vzdálenost je minimální, spojí do prvního shluku a vypočítá se úplně nová matice vzdálenosti. V té jsou pak vynechány objekty prvního shluku a naopak tento shluk je zařazen jako celek. Celý proces se opakuje do té doby, dokud všechny objekty netvoří jeden shluk. Grafickým výstupem je tak zvaný dendogram, jinými slovy stromový diagram, ze kterého jsou zřejmé jednotlivé kroky vytváření shluků a postupné shluky objektů. Metod aglomerativního postupu existuje celá řada, odlišují se od sebe pouze přístupem k definici podobnosti. (Meloun 2002) Dle Hebáka (2007) lze postup hierarchické posloupnosti této metody rozkladů popsat následovně: 1. Vypočteme matici D vhodných měr vzdáleností. 2. Začneme proces od rozkladu S (n), tj. od n shluků, z nichž každý obsahuje jeden objekt. 3. Prohledáme matici D a nalezneme dva shluky (h-tý a h -tý), jejichž vzdálenost Dhh je minimální. 4. Spojíme tyto dva shluky do nového g-tého shluku. V matici D odstraníme h-tý a h -tý řádek i sloupec a nahradíme je řádkem i sloupcem pro nový shluk, řád matice D se snažil o jedničku. 5. Poznamenáme pořadí cyklu v = 1,2,, n 1, identifikaci spojených objektů h, h a hladinu pro spojení di = Dhh. 6. Pokud proces vytváření rozkladů již neskončil spojením všech objektů do jediného shluku S (1), pokračujeme krokem číslo 3. (Hebák 2007) Metoda nejbližšího souseda (Single, Nearest) U této metody se určí vzdálenost shluků u dvou nejbližších objektů, které jsou z odlišných shluků. Předpokladem je minimum z možných mezishlukových vzdáleností objektů. Nevýhodou této metody je, že může docházet ke stavu, kdy dochází k tvorbě řetězců, což může vést ke zcela milným výstupům. Dalším problém je, že vždy tvoří nový shluk pomocí nejkratší vzdálenosti mezi objekty či shluky a tím pádem neumí rozpoznat špatně separované shluky. Metoda tak nedokáže rozpoznat špatně separované shluky. Výhodou ovšem je, že je to jedna z metod, která dokáže roztřídit i neeliptické shluky.
Metoda nejvzdálenějšího souseda (Complete, Futhest) Metoda nejvzdálenějšího souseda se od první metody liší tím, že je vzdálenost shluků stanovena přesně naopak, a to vzdáleností dvou nejvzdálenějších objektů z rozdílných shluků. Objekty ve shluku jsou rozčleněny na základě maximální vzdálenosti nebo minimální podobnosti k objektům druhého shluku. Metoda velice dobře funguje v případě, kdy objekty vytváření přirozeně oddělené shluky. Centroidní metoda (Centroid) Postup při centroidní metodě vychází přímo z názvu, neboť vzdálenost shluků je dána vzdáleností jejich center (těžišť). Nejbližší jsou tedy shluky s nejnižší vzdáleností mezi centry. Tato metoda vyžaduje vyjádření této vzdálenosti pomocí čtvercové Eukleidovské vzdálenosti. Metoda mediánová (Median) Metoda je založena na centroidní metodě, protože se snaží o odstranění rozdílné váhy, jež centroidní metoda dává rozdílně velkým shlukům. Takže představuje takové vylepšením metody centroidní. Metoda průměrová (Average) Při této metodě vychází výstupy v dendogramech často podobné těm jako u metody nejvzdálenějšího souseda. Objekty ze dvou shluků se spojují do jednoho společného shluku a poté se vypočte aritmetický průměr vzdáleností. Nejbližší jsou shluky s nejmenší průměrnou vzdáleností mezi objekty jednoho a objekty druhého shluku. Wardova metoda Při postupu dle Wardovovy metody se vybírají takové shluky na sloučení, ve kterých vychází minimální součet čtverců. Zakládá se tedy na minimalizaci ztráty informace při spojení dvou tříd. Výhodou této metody je, že má sklon odstranit malé shluky, a tím tak vytvářet shluky podobné velikosti. (Meloun 2002) Dvojstupňové seskupování (Two Step Cluster) Výsledné řešení dvojstupňového seskupování může záviset na pořadí případů v souboru, je tedy vhodné, aby se tento dopad minimalizoval. Proto by měly být případy uspořádány v náhodném pořadí. V opačném případě by totiž mohlo dojít ke zkreslení výsledného řešení. Prvním krokem tohoto dvoustupňového postupu je tvorba velkého počtu malých shluků. Cílem je snížit velikost matice, která obsahuje vzdálenosti mezi všemi možnými dvojicemi případů. Malé shluky jsou pouze shluky původních případů, které se používají místo nezpracovaných dat v hierarchickém shlukování. Na základě měření algoritmus rozhoduje, zda má být určitý případ sloučený s již vytvořeným malým shlukem nebo má vytvořit nový malý shluk. Když je tento proces dokončen, jsou všechny případy ve stejném shluku považovány za jeden subjekt. Velikost vzdálenosti matic již není závislá na počtu případů, ale na počtu malých shluků. V druhém kroku dvoustupňového seskupování se využívá
standardní algoritmus hierarchického shlukování. Hierarchické formování skupin umožní prozkoumat celou řadu řešení s různými počty shluků. (Norušis 2011) Dvoukroková shluková analýza je obzvláště vhodná pro velké výběry, kdy předem nepředpokládáme určitý počet shluků a jsou k dispozici metrická nebo kategoriální data nebo obojí. (Košťál 2013) 2.1.2 Divizní metody hierarchického shlukování Divizní hierarchický postup je v praxi méně používaný. Taktéž ho lze nazývat jako DIANA (DIvisive ANAlysis). U tohoto postupu se vychází z jednoho shluku S (1) a v každém kroku se jeden ze shluků rozštěpí na dva, takže na konci procesu dostáváme S (n). Má tedy opačný postup oproti aglomerativnímu postupu. (Hebák 2007) 2.2 Nehierarchické shlukování U těchto postupů je předem stanoven počet shluků, který se může v průběhu výpočtu měnit. V případě, kdy se počet shluků nemění, nazýváme tyto metody jako metody s konstantním počtem shluků. Naopak, pokud dochází v průběhu ke změnám v počtu shluků, nazýváme tyto postupy jako metody s optimalizovaným počtem shluků. Nehierarchické shlukování řeší opět řada metod. Tyto metody se člení na dvě základní skupiny, a to na optimalizační metody a analýzu modů, medoidů. Při použití optimalizačních nehierarchických metod se hledá optimální rozklad za pomocí přeřazování objektů ze shluku do shluku, kdy se snažíme minimalizovat nebo maximalizovat nějakou charakteristiku rozkladu. Metody analýzy modů, medoidů hledají rozklad do shluků, kdy shluky představují místa se zvýšenou koncentrací objektů v m-rozměrném prostoru proměnných. Namísto výchozí matice vzdáleností může být použita v určitých případech korelační matice. Při jednoznačném přiřazení ke shlukům se používají metody k-průměrů, k-medoidů, k-modů či k-histogramů a nebo se vypočte míra příslušnosti jednotlivých objektů ke shlukům pomocí fuzzy shlukové analýzy. (Meloun 2002) Metoda k-průměrů (k-means) Tato metoda je jinak nazývána jako metoda nejbližších středů. Princip této metody je založen na rozdělení objektů do shluků takovým způsobem, aby byla mezishluková suma čtverců co nejmenší. Předpokladem je rozdělení n objektů o m proměnných do k shluků. Metodu lze použít i v případě, kdy máme k disposici velký počet případů a chceme vytvořit malý počet shluků. (Meloun 2002) Algoritmus této metody představuje proces přesouvání objektů mezi shluky, který jde popsat těmito kroky: 1. Zvolíme počáteční rozklad do k shluků, nejčastěji náhodně, podkladem však může být nějaká vnější informace, někdy taktéž výsledek již provedeného shlukování, který chceme vylepšit. 2. Určíme centroidy pro všechny shluky v aktuálním rozkladu. 3. Probereme po řadě všechny objekty. V případě, kdy má právě zkoumaný objekt nejblíže k vlastnímu centroidu, ponecháme jej na místě. Jinak jej přesouváme do shluku, k jehož centroidu má nejblíže. Nedojde-li v tomto kroku k žádným přesunům, považujeme aktuální rozklad za definitivní řešení. (Hebák 2007)
Výhodou této metody je jednoduchost, rychlost a především se dá použít pro velké množství dat. Nevýhodou je pak fakt, že výsledky jsou znovu ovlivněny výběrem počátečních shluků, a protože po přiřazení bodu dojde k přepočítání těžiště, výsledek je také ovlivněn původním pořadím objektů. Izolované objekty, které leží mimo ostatní, mají velmi negativní vliv na výsledek. (Kučera 2008) Metoda k-medoidů Medoid představuje střed shluku, je to střední objekt, jehož vzdálenost k ostatním objektům v tomto shluku by měla být minimální. Tato metoda také vychází z předem stanoveného počtu shluků. Pro každý vytvořený shluk je určen medoid, který představuje konkrétní objekt ze shluku. Počáteční medoid je dán takovým způsobem, aby součet vzdáleností jednotlivých objektů ve shluku od tohoto daného objektu byl co nejmenší. (Meloun 2002) Metoda k-modů a k- histogramů Tyto metody jsou určeny pro datové soubory, které jsou charakterizovány pomocí nominálních proměnných. Metoda k-modů je analogická s metodou k-means. Tato metoda je neparametrická, vzhledem k tomu, že nemá žádné distribuční předpoklady o datech. Je stejně rychlá jako k-means, zvládne zpracovat velké datové soubory, které se obvykle vyskytují v průzkumu výzkumných aplikací. V případě použití k-modů není nutné pro seskupení kategorizovaných dat provádět měření vzdáleností. (Chaturvedi 2001) Metoda k-histogramů rozšiřuje k-means. Používá se pro shlukování objektů popsaných pomocí nominálních proměnných. Experimentální výsledky na reálných datových souborech ukazují, že metoda k-histogramů může dosahovat lepších výsledků, než seskupování pomocí k-modů. (He 2005) Fuzzy metoda Tato metoda zobecňuje všechny shlukovací metody, neboť dává možnost shlukování jednoho objektu do více než jednoho shluku. Přičemž u běžného shlukování je každý objekt členem jen jednoho shluku. Proces metody má tedy výhodu v tom, že nenutí zařazení objektu jen do jednoho specifického shluku. Naopak nevýhodou je fakt, že se zde objevuje mnohem více informací, které musí být vysvětleny. (Meloun 2002) 3 APLIKACE METOD V PRAXI Jak již bylo uvedeno, analýza shluků se používá pro uspořádání neuspořádané skupiny objektů do několika vnitřně sourodých tříd či shluků. Ve statistických programech můžeme využít hned několika metod. V této kapitole se zaměříme na vybrané metody, které nabízí program IBM SPSS výše popsané metody k-průměrů, hierarchické seskupování a dvoustupňové seskupování. Metoda k-průměrů (k-means) Metodu k-means využila například Sobotková (2012) ve své výzkumné studii, která se zabývá antisociálním chováním adolescentů ve vztahu ke školní šikaně a expozici násilí. Pro
identifikaci typů chování adolescentů podle míry projevů antisociálního chování byla provedena nehierarchická shluková analýza na položkách škály antisociálního chování. Na základě této metody byly identifikovány 4 typy osob, které se lišily v míře a projevech antisociálního chování (bezproblémoví, projevující vyšší míru fyzických soubojů, vysoce skórující na všech položkách škály antisociálního chování a s mírně problémovým chováním). (Sobotková 2012) V případě projektu Kshirsagara (2013) pojednávajícím o identifikaci mozkového tumoru byl použit algoritmus metody k-means k provedení identifikace snímku mozku z magnetické rezonance. Pomocí algoritmu byly seskupeny snímky mozku a dále byly rozděleny buňky do dvou skupin dle toho, zda již byly zasažené či ne. Díky tomu byl v konečné fázi vytvořen funkční systém, který vede záznamy o pacientech a zjednodušuje proces identifikace mozkového nádoru. (Kshirsagar 2013) Při použití metody k-means se v programu IBM SPSS Statistics 22.0 nejdříve navolí počet skupin v poli Number of Clusters, do kterých se jednotky zařadí dle zvolených charakteristik. Jde o tak zvaný iterační proces, neboť jednotka, která je na začátku zařazena v nějaké skupině, může být ke konci procesu ve skupině úplně jiné. Po každém kroku dojde k přehodnocení a jednotky se tak zařadí do příslušných skupin, tento proces je u konce, když nenastane žádný přesun. Číselné proměnné se nahrají do sekce Variables a proměnné, které případy popisují, se převedou do pole Label CASE by. K zobrazení statistik, např. analýzy rozptylu, centroidy skupin, informace o příslušnosti ke klastrům či volbě způsobu práce s chybějícími hodnotami slouží pole Options. (Centrum výuky SPSS 2008) Obrázek č. 1: Metoda K-means
Hierarchické seskupování Hierarchické seskupování využil Aria (2012) při zkoumání složení a přípravy Thepla, indické nekvašené chlebové placky z celozrnné mouky s přídavkem koření a zeleniny. Nejprve byla provedena senzorická analýza za použití devítibodové hedonické stupnice. Údaje získané pomocí senzorické analýzy byly zpracovány, aby mohly být použity ve vícerozměrné analýze dat, konkrétně hierarchické shlukové analýze. Pro tvorbu skupin byla zvolena Wardova metoda hierarchického seskupování, která vychází z analýzy rozptylu. Vzdálenosti mezi objekty byly vypočteny pomocí čtvercové Eukleidovské vzdálenosti, jak Wardova metoda vyžaduje. Tato metoda je obecně velmi účinná, avšak má tendenci tvořit poměrně malé shluky. Objekty v jednotlivých skupinách byly hodnoceny na základě minimálního součtu čtverců odchylek od průměru skupiny. Pro znázornění jednotlivých kroků shlukové analýzy a vzdáleností mezi výslednými skupinami byl pomocí programu SPSS vytvořen také dendrogram, z něhož jasně vyplynulo, že smyslové skóre, získané u skupiny bez přídavku soli, bylo výrazně odlišné od ostatních skupin, které tuto přísadu zahrnovali. Metoda hierarchického seskupování se, na základě této studie, ukázala jako velmi užitečný nástroj pro studium vlivu koncentrace přísad na celkové hodnocení při optimalizaci potravinářských výrobků. (Aria 2012) S pomocí hierarchické shlukové analýzy by bylo například možné třídit televizní pořady do homogenních skupin dle charakteru diváků, což může být využito v marketingu k identifikaci segmentů. Podobně lze také seskupovat do homogenních skupin například města tak, aby mohla být dále vybírána k testování různých marketingových strategií. (IBM Corporation 2011) Při použití hierarchické metody se v programu proměnné převedou do sekce Variable(s) a do pole Label CASE by lze nahrát proměnnou popisující případy. Pomocí tlačítka Method je možné zobrazit seskupování, míru vzdálenosti, transformaci hodnot a transformaci míry vzdálenosti. (Centrum výuky SPSS 2008) Obrázek č. 2: Hierarchické seskupování
Dvojstupňové seskupování (Two Step Cluster) Metodu dvoustupňového seskupování (Two Steps Cluster) využil například Mason (2009) ve studii zabývající se analýzou běžných lokalit, v nichž se nejčastěji vyskytují mladiství užívající návykové látky. Mezi kategorizované proměnné byly zařazeny rizikové lokality, dále pohlaví, duševní stres, úzkost a psychické problémy. Číselné proměnné zahrnovaly věk a počet dní, ve kterých jedinec požil alkohol či drogu během uplynulých 90 dní. Vzhledem k výhodné manipulaci s kategorizovanými a číselnými proměnnými a automatickému výběru počtu shluků byla provedena dvoustupňová analýza. Za použití Schwartz-Bayesova kritéria byli mladiství rozdělení do dvou uzavřených skupin. Počet skupin nebyl předem zvolen, ale byl použit odhad procedury TwoStep. První skupina zahrnovala chlapce i dívky v průměrném věku 16,6 let, zatímco druhá skupina zahrnovala pouze chlapce, a to v průměrném věku 16,3 let. Věkový rozdíl u daných skupin se ukázal jako statisticky nevýznamný. První skupina mladistvých prokazovala častější užívání alkoholu a návykových látek než skupina druhá. U rozdílu v užívání drog a alkoholu byla prokázána statistická významnost. (Mason 2009) Maloobchodní prodejci a prodejci spotřebního zboží pravidelně aplikují metodu dvoustupňového seskupování na data, která popisují nákupní zvyklosti jejich zákazníků, jejich věk, pohlaví, úroveň příjmů a podobně. Tyto společnosti pak přizpůsobí svůj marketing a strategii vývoje produktů pro každou skupinu spotřebitelů tak, aby zvýšili prodej a budovali loajalitu ke značce. (IBM Corporation 2011) Při dvoustupňovém seskupování lze počet skupin shluků, ve kterých jsou jednotky rozděleny, navolit předem v sekci Number of Clusters nebo můžeme použít odhad procedury TwoStep. U této metody dokáže program IBM SPSS zpracovat číselné i kategorizované proměnné. Tyto kategorizované proměnné se nahrávají do sekce Categorical Variables a číselné proměnné do Continous Variables, ovšem jeden z těchto seznamů lze ponechat prázdný. V poli Distance Measure je možnost volby míru vzdálenosti. V případě, že předpokládáme šum, používáme možnost Options. Klasifikační metoda TwoStep Cluster se v nové verzi programu zadává obdobným způsobem jako tomu je u předchozích verzí. V programu je možná volba různých pohledů na model ve výstupovém okně, ty obsahují dialogy menšího počtu voleb upřesňujících výstupy. Dialogové okno Output je obohaceno s porovnání se staršími verzemi o Model Viewer Output, kam je možné zadat další doplňující proměnné, které se budou podílet na popisu klastrů tzv. Evaluation Fields. (Centrum výuky SPSS 2008)
Obrázek č. 3: TwoStep Cluster Výstup této metody se aktivuje v Model Viewer, jež podává informace pomocí interaktivního náhledu. Toto okno náhledu je seskupené ze dvou částí, kde je k dispozici hlavní panel, který nabízí přehled základních informací o modelu či vlastnosti klastrů. Tabulku vlastností klastrů je možné dále interaktivně upravovat. Po označení několika sloupců nebo buněk lze zobrazit detailní popis vlastností v pravém okně panelu. Pravá část panelu vyobrazuje detailní informace o modelu a prvcích, jež jsou vybrané v hlavním panelu. Nabízí se tu možnost různého zobrazení náhledů, mezi kterými lze pohodlně přecházet pomocí rolovací nabídky umístěné ve spodní části každého okna. (Centrum výuky SPSS 2008)
Obrázek č. 4: Výstup TwoStep Cluster Nové technologie přináší nové možnosti práce se statistickými programy. Nejnovější verze programu IBM SPSS Statistics 22.0 umožňuje zobrazení výstupů na tak zvaných chytrých zařízeních bez jakékoli aplikace či jiného SmartReaderu. Tyto výstupy lze zobrazit jak na klasickém počítači s operačním systémem Windows Mac a Linux, ipod, iphone, ipad, tak i telefony a tablety s operačním systémem Aneroid. (Centrum výuky SPSS 2008) Obrázek č. 5: Výstup z IBM SPSS Statistics 22.0 v chytrém telefonu
6 ZÁVĚR Příspěvek byl zpracován na téma shluková analýza vícerozměrných dat se zaměřením na využití programu IBM SPSS a jeho nové možnosti. Byly zde diskutovány postupy metod shlukové analýzy a jejich výhody či nevýhody. Porovnáním těchto metod lze dospět k závěru, že dvou kroková shluková analýza je obzvláště vhodná pro velké výběry, kdy předem nepředpokládáme určitý počet shluků a jsou k dispozici metrická nebo kategoriální data nebo obojí. Metodu k-means lze použít také v případě, kdy máme k disposici větší počet případů. Výhodou této metody je jednoduchost a rychlost. Nevýhodou je pak to, že výsledky jsou znovu ovlivněny výběrem počátečních shluků, a protože po přiřazení bodu dojde k přepočítání těžiště, je výsledek také ovlivněn původním pořadím objektů. Izolované objekty, které leží mimo ostatní, mají velmi negativní vliv na výsledek. Proces Fuzzy metody má výhodu v tom, že nenutí zařazení objektu jen do jednoho specifického shluku. U metody nejbližších sousedů je nevýhodou fakt, že může docházek ke stavu, kdy dochází k tvorbě řetězců, což může vést ke zcela mylným výstupům. Dalším problém je, že vždy tvoří nový shluk pomocí nejkratší vzdálenosti mezi objekty či shluky, a tím pádem neumí rozpoznat špatně separované shluky. Metoda tak nedokáže rozpoznat špatně separované shluky. Výhodou však je, že je to jedna z metod, která dokáže roztřídit i neeliptické shluky. Metoda nejvzdálenějšího souseda velice dobře funguje v případě, kdy objekty vytváření přirozeně oddělené shluky. Výhodou hierarchické metody je, že není potřeba znát optimální počet shluků, protože se jejich počet určuje dodatečně. Z uvedeného textu mimo jiné vyplývá, že nové technologie stále přináší nové možnosti práce s daty a výstupy ze statistických programů. Nejnovější verze programu IBM SPSS Statistics 22.0 se od předchozí verze v zaměření na shlukovou analýzu příliš neliší. Ovšem velkým přínosem je možnost zobrazení výstupů na chytrých telefonech bez jakékoli aplikace či jiného SmartReaderu. Výstupy z programu lze zobrazit na zařízeních jako je ipod, iphone, ipad, telefony a tablety s operačním systémem Android.
LITERATURA Arya S. S., Patil S. (2012): Ingredients and Process Standardization of Thepla: An Indian Unleavened Vegetable Flatbread using Hierarchical Cluster Analysis. Advance Journal of Food Science and Technology 4(5): 286 293. Centrum výuky SPSS. (2008): SPSS Base 16.0: Statistické procedury. [CD-ROM] Praha: SPSS ČR. Chaturvedi A., Green P. E., Carroll J. D. (2001): K-modes Clustering. Journal of Classification 18: 35 55. He Z., Xu X., Deng S., Dong B. (2005): K-Histograms: An Efficient Clustering Algorithm for Categorical Dataset. Artifical Intelligence 08. Available at http://arxiv.org/abs/cs/0509033 (accessed January 2014). Hebák, P., Hustopecký, J., Pecáková, I. (2007): Vícerozměrné statistické metody (3). Praha: Informatorium, 271 s. ISBN: 80-7333-039-3. IBM Corporation (2011): Statistics Base Option. Available at http://www.ibm.com/us/en (accessed January 2014). Košťál, J. (2013): Vybrané metody vícerozměrné statistiky. Praha: Institut pro kriminologii a sociální prevenci, 113 s. ISBN 978-80-7338-128-8. Kshirsagar P., Patil M., Prabhu S., Patil S., Patil S. (2013): Brain Tumor Identification Using K- Means Clustering. International Journal of Engineering Trends and Technology, 4: 354 357. Kubanová J. (2003): Statistické metody pro ekonomickou a technickou praxi. 1. vyd. Bratislava: Statis, 2003. 247 s. ISBN 80-85659-31-X. Kučera J. (2008): Metody kategorizace dat. Available at http://is.muni.cz/th/172767/fi_b/metody_kategorizace_dat.txt (accessed January 2014). Mason M. J., Korpela K. (2009): Activity spaces and urban adolescent substance use and emotional health. Journal of Adolescence, 32: 925 939. Meloun M., Freisleben J. (2009): Klasifikace podzemních vod diskriminační analýzou. Vodní hospodářství 59: 75 80. Meloun M., Militký J. (2004): Statistická analýza experimentálních dat. Praha: Academia, 980 s. ISBN 80-200-1254-0. Meloun M., Militký, J. (2002): Kompendium statistického zpracování dat. Praha: Academia, 766 s. ISBN 80-200-1008-4. Norušis M. J. (2011): IBM SPSS Statistics 19 Statistical Procedures Companion. Available at http://www.norusis.com (accessed January 2014).
Sobotková V., Osecká T., Jelínek M., Blatný M., Hrdlička M. (2012): Expozice komunitnímu násilí a školní šikana a jejich vztah k antisociálnímu chování v rané adolescenci. Československá psychologie 2012, 56: 409 419.