Úèinný prostorovì-rozdìlující algoritmus pro shlukování pomocí k-støedu

Úèinný prostorovì-rozdìlující algoritmus pro shlukování pomocí k-støedu Pøeklad: Lumír Návrat Katedra informatiky, Vysoká ¹kola báòská - Technická univerzita Ostrava Abstrakt Shlukování pomocí K-støedu je populární shlukovací metoda, její¾ princip je zalo¾en na nalezení nejbli¾¹ího prototypu pro ka¾dý vstupní vzorek a zahrnuje nároèné výpoèty vzdáleností. Prezentujeme nový algoritmus vykonávající tuto úlohu. Touto a dal¹í optimalizací jsme ukázali významné zlep¹ení provádìní algoritmu pro k-støed. Ná¹ algoritmus produkuje stejné (a¾ na chyby zaokrouhlování) výsledky jako pùvodní pøímý algoritmus. 1 Úvod Shlukování byl obecnì studovaný problém v rùzných sférách domén aplikací vèetnì dolování dat. Rùzné algoritmy byly popsány v literatuøe. Shlukovací algoritmy rozdìlují datový soubor do mno¾iny k shlukù. Ka¾dý shluk je pøedstavovaný buï støedem vá¾nosti shluku (jako v k-støedu) nebo jedním z objektù shluku umístìného blízko jeho støedu. Dva soupeøící shlukovací algoritmy jsou srovnávány podle dosa¾ené kvality shlukování, a podle èasu a nárokù na kapacitu pamìti bìhem výpoètù. V závislosti na aplikaèních po¾adavcích, jeden nebo více z vý¹e uvedených rysù mù¾e být dùle¾itý. Shlukovací algoritmus pomocí k-støedu ukázal, ¾e je efektivním pro mnoho praktických aplikací. Bohu¾el jeho pøímá implementace je velice nároèná na výpoèet a to hlavnì pro velké datové soubory. My navrhujeme nový algoritmus vykonávající shlukování pomocí k-støedu. Nový algoritmus pou¾ívá techniku zalo¾enou na rozdìlování prostoru, která se zabývá podmno¾inu vzorù patøících do pøíslu¹ného shluku. Ka¾dá podmno¾ina vzorù reprezentuje podprostor v prostoru vzorù. Vzory jsou umístìnì v rozdìlené struktuøe (napø. k-dimenzionálním stromu). To mù¾e být pak pou¾ito pro efektivní nalezení v¹ech vzorù, které jsou nejblí¾e k danému prototypu. Nový algoritmus má významnì vy¹¹í výkon ne¾ pøímý algoritmus. Pøesto jsou výsledky shlukování a¾ na chyby zaokrouhlování ( zpùsobené omezenou pøesností aritmetiky) stejné. Je tak soupeøem pro dal¹í algoritmy v zlep¹ování výkonnosti. 2 Shlukovací metoda pou¾ívající k-støed Rùzné formy k-støedu byly studovány v literatuøe [4, 2]. V tomto èlánku jsme upravili Forgyovu metodu [2]. K-støed je iterativní technika, která zaèíná s poèáteèními shluky (napø. náhodnì generovanými), a bìhem následujících iterací vylep¹uje kvalitu tìchto shlukù. Tento proces je zastaven kdy¾ je dosa¾eno ukonèovacího kritéria; napø. èlenství ve shluku se ji¾ 1

Methodologies for knowledge Discovery and Data Mining - Proceedings 99 2 více nemìní nebo se podstatnì nemìní kvalita shluku. Shlukování rozdìlí vstupní vzory do k (u¾ivatelsky denovaných) disjunktních podmno¾in. Ka¾dý shluk je reprezentován pomocí prototypu vzoru jako jeho støed. Kvalita shluku je vylep¹ována zmìnami pøiøazení vzorù shlukùm (tj. èlenství ve shluku). Ka¾dá iterace pøímého algoritmu se skládá ze tøí krokù: { Krok 1: Zmìna èlenství ve shluku vylep¹uje celkovou kvalitu. Vzorek je pøiøazen shluku tehdy, pokud je prototyp nejbli¾¹ím prototypem pro daný vzorek. To zahrnuje vzájemný výpoèet vzdálenosti mezi ka¾dým vzorem a prototypem. V rámci tohoto èlánku pak pou¾íváme pro výpoèet vzdálenosti Euklidovskou metriku. Tento krok je vysoce výpoèetnì nároènou èásti algoritmu; èasová slo¾itost je µ (nkd), kde n je poèet vzorù a d je dimenze vzorù. { Krok 2: Nalezení nové mno¾iny prototypù nalezením nového støedu pro ka¾dý shluk. Èasová slo¾itost zde je µ (nd). { Krok 3: Vyhodnocení ukonèovacího kritéria. pou¾ívá se standardní prùmìrná kvadratická chyba, která potøebuje pro ukonèovací kritérium èas µ (nd). Poèet iterací se mù¾e li¹it podle slo¾itosti problému od nìkolika málo iterací a¾ k mnoha tisícùm. Problémem je vhodná volba k, která je závislá na okruhu pùsobnosti. Vìt¹inou u¾ivatel musí zkou¹et rùzné hodnoty [2]. Shlukovací algoritmy zalo¾ené na rozdìlování jako napø. pomocí k-støedu, jsou obecnì velmi citlivé na poèáteèní rozdìlení do shlukù a u¾ivatel vìt¹inou zkou¹í rùzné nastavení poèáteèních hodnot [1]. Proto, pøímá implementace k-støedu mù¾e být velice nároèná na výpoèet. Zvlá¹» tehdy, pokud to pou¾ijeme na velkém datovém souboru. Dva hlavní pøístupy, popsané v literatuøe, mohou být pou¾ity pro sní¾ení nárokù na výpoèet k-støedu: prototypy a èlenství. Døíve byly prototypy organizované ve vhodné struktuøe tak, aby nalezení nejbli¾¹ího prototypu pro daný vzor bylo efektivnìj¹í [1]. Tento pøístup je nejlep¹í pou¾ít v okam¾iku, kdy prototypy jsou stálé a nemìnné. Av¹ak, my v tomto èlánku pøedpokládáme, ¾e prototypy se budou mìnit dynamicky. Proto, mnoho z tìchto optimalizací není pøímo aplikovatelných. Druhá technika pou¾ívá informace o èlenství ve shluku z pøedchozí iterace a tím redukuje poèet poèítaných vzdáleností. P-CLUSTER je shlukovací algoritmus, který vychází ze skuteènosti, ¾e zmìn èlenství ve shluku je po nìkolika prvních iteracích relativnì málo [3]. A dále vychází z toho, ¾e pohyb støedu shluku je malý pro po sobì následující iterace (zvlá¹» po nìkolika prvních iteracích). Tyto optimalizace jsou vzhledem k na¹emu pøístupu ortogonální (viz. kapitola 4). 3 Nový algoritmus Ná¹ algoritmus rozdìluje prostor vzorkù do disjunktních, men¹ích podprostorù, aby se mohl najít nejbli¾¹í spoleèný prototyp pro podmno¾inu vzorù reprezentující podprostor. Hlavní my¹lenka je následující. V¹echny prototypy jsou potenciálními kandidáty na nejbli¾¹í prototyp pro v¹echny vzorky. My jsme ale schopni zmen¹it mno¾inu kandidátù a to následovnì: (1) rozdìlením prostoru do mnoha disjunktních men¹ích podprostorù a (2) pou¾itím jednoduchých geometrických omezení. Je zøejmé, ¾e ka¾dý podprostor bude potenciálním kandidátem jiné mno¾iny. A dále, prototyp mù¾e patøit do mno¾iny kandidátù z nìkolika podprostorù. Tento pøístup mù¾eme rekurzivnì aplikovat do té doby, ne¾ velikost mno¾iny kandidátù ka¾dého podprostoru je rovna jedné. V tomto kroku, v¹echny vzorky v podprostoru musí mít jediného kandidáta, který je nejbli¾¹í k jejich prototypu. Od tohoto pøístupu oèekáváme významnou

Methodologies for knowledge Discovery and Data Mining - Proceedings 99 3 redukci nárokù na výpoèet tøí krokù algoritmu pou¾ívajícího k-støed. To je mo¾né, jeliko¾ výpoèet se ve vìt¹inì pøípadù provádí jen s podprostory (obsahující mnoho vzorkù) a ne se vzorky. Zlep¹ení získána pou¾itím na¹eho pøístupu jsou kriticky závislé na pou¾ití dobré vytøiïovací metody. V první fázi nového algoritmu, vytvoøíme k-dimenzionální strom ve kterém uchováváme vzorky (detailní implementace je uvedena jinde [1]). Koøen tohoto stromu reprezentuje v¹echny vzorky, zatímco potomci koøenu reprezentují podmno¾inu vzorkù zcela zahrnuté v men¹ím podprostoru. Pro ka¾dý uzel stromu, si pamatujeme poèet vzorkù, souèet vzorkù a souèet ètvercù vzorkù. V druhé fázi, jsou výchozí prototypy odvozovány stejnì jako v pøímém algoritmu. Rovnì¾ tøetí fáze je stejná jako u pøímého algoritmu. Pro ka¾dý shluk { si pamatujeme poèet vzorkù, jejich souèet a rovnì¾ souèet jejich ètvercù. V ka¾dé iteraci zaèínáme v koøenovém uzlu se v¹emi k kandidátními prototypy. V ka¾dém uzlu aplikujeme vytøiïovací funkci (popsána ní¾e) na kandidátní prototypy. Jestli¾e poèet kandidujících prototypù je roven jedné, pak ji¾ neprocházíme ní¾ pod tento uzel a pro v¹echny vzorky nále¾ející k tomuto uzlu bude tento uzel nejbli¾¹ím prototypem. Jeliko¾ máme zaruèené, ¾e pøiøazení vzorkù ke shluku je stejné jako u pøímého algoritmu, vyhneme se tak tøídìní dal¹ích kandidátù. Statistiky shluku jsou pak aktualizované na základì informací ulo¾ených v tom uzlu. Jedna iterace pøímého algoritmu (nebo jakéhokoliv jiného algoritmu) je aplikována jen na koncové uzly, které mají víc ne¾ jeden kandidující prototyp. Tento proces toti¾ pou¾ívá kandidující prototypy a vzorky tìchto koncových uzlù. Na konci ka¾dé iterace je odvozena nová mno¾ina prototypù a je vypoèítána chybová funkce. Tyto výpoèty mohou být efektivnì vykonávány zatímco se odvozující pøesné (nebo podobné vzhledem k zaokrouhlovacím chybám) výsledky jako v pøímém algoritmu [1]. Tøídìní je ve zmínìném algoritmu dodateènou re¾ií a je jasné, ¾e zde existuje závislost mezi èasem potøebným ke protøidìní a efektivitou algoritmu. V na¹í metodì jsme pou¾ili následující strategii roztøiïování na ka¾dý uzel stromu: { pro ka¾dý kandidující prototyp, jsme hledali minimální a maximální vzdálenost ke ka¾dému bodu v podprostoru. { hledali jsme minimální z maximálních vzdáleností, nazývanou M inim ax { vyøadili jsme v¹echny kandidáty, jejich¾ minimální vzdálenost byla vìt¹í ne¾ M inim ax Tato strategie zaruèuje, ¾e ¾ádný kandidát nebude vyøazen pokud mù¾e být potenciálnì bli¾- ¹ím ne¾ jakýkoliv jiný prototyp v daném podprostoru. Takto ná¹ algoritmus produkuje stejné (s výjimkou chyb zaokrouhlení) výsledky shlukování jako pøímý algoritmus. Ná¹ pøístup vytøiïování patøí mezi konzervativní pøístupy a mù¾e minout nìkteré z vytøiïovaných mo¾ností. I kdy¾ se jedná o relativnì nenároèný algoritmus, lze ukázat, ¾e výpoèet pro ka¾dý kandidující prototyp je konstantní délky [1]. Zvolením nároènìj¹ího vytøiïovacího algoritmu docílíme sice zmen¹ení celkového poètu poèítaných vzdáleností, ale musíme být opatrní, aby celkový èas potøebný pro výpoèet netrval déle, pravì díky zvý¹ené dobì potøebné na vytøiïování. 4 Experimentální výsledky Proto¾e kvalita shlukù nového algoritmu je stejná (s výjimkou chyb zaokrouhlení) jako výsledky shlukování pøímým algoritmem, mìøili jsme výkonnost nového algoritmu vzhledem k výpoètu vzdáleností a celkovému èasu výpoètu. Rovnì¾ jsme srovnávali tento algoritmus

Methodologies for knowledge Discovery and Data Mining - Proceedings 99 4 s algoritmem P-Cluster. Sestrojili jsme hybridní algoritmus, ve kterém je ná¹ nový algoritmus pou¾itý pro horní úrovnì stromu a na koncové listy stromu je pou¾itý algoritmus P-CLUSTER. V¹echny experimenty byly provádìny na IBM RS/6000 s operaèním systémem AIX ve verzi 4. Procesor bì¾el na 66Mhz a velikost pamìti byla 128MB. V tomto èlánku prezentujeme reprezentativní výsledky. Pro více podrobností odkazujeme ètenáøe na [1]. Vyhodnocení výkonnosti algoritmu je zalo¾eno na následujících mìøeních: { FRD: faktor redukce poètu poèítaných vzdáleností vzhledem k pøímému algoritmu { ADC: prùmìrné mno¾ství poèítaných vzdáleností provedených pro vzorek v ka¾dé iteraci { FRT: faktor redukce v celkovém èase výpoètu vzhledem k pøímému algoritmu. FRD a ADC vypovídají o vnitøní kvalitì algoritmu a jsou víceménì nezávislé na architektuøe a platformì. Pou¾ili jsme rùzné umìlé mno¾iny dat (viz. tabulka 1). Pro datové mno¾iny R1 Tabulka 1: Popis mno¾iny dat; rozsah v jednotlivých dimenzích je stejný pokud není explicitnì uvedeno Data Velikost Dimenze Poèet shlukù Charakteristika Rozsah DS1 100 000 2 100 Møí¾ka [ 3; 41] DS2 100 000 2 100 Sinus [2; 632]; [ 29; 29] DS3 100 000 2 100 Náhodné [ 3; 109]; [ 15; 111] R4 256 000 2 128 Náhodné [0; 1] R8 256 000 4 128 Náhodné [0; 1] R12 256 000 6 128 Náhodné [0; 1] a¾ R12 jsme generovali k (16 nebo 128) náhodných bodù v prostoru pøíslu¹né multidimenzionální jednotkové krychle. Pro {{tý bod bylo generováno {(k+1) bodù v jeho okolí, které byly 2n rovnomìrnì rozlo¾ené. To mìlo za následek vytvoøení shlukù rùzným k mno¾stvím bodù. Tabulka 2: Celkové výsledky pro 10 iterací Data k Doba výpoètu pøímého algoritmu (v sekundách) Ná¹ algoritmus Celkový èas (v sekundách) FRT FRD ADC DS1 64 23,020 2,240 10,27 54,72 1,10 DS2 64 22,880 2,330 9,81 43,25 1,50 DS3 64 23,180 2,340 9,90 52,90 1,23 R4 64 64,730 3,090 20,94 139,80 0,46 R8 64 89,750 8,810 10,18 24,15 2,69 R12 64 117,060 29,180 4,01 5,85 11,10 Tabulka 2 a dal¹í výsledky (v [1]) ukazují jak ná¹ algoritmus mù¾e zlep¹it celkový výkon k-støedu uspoøádáním do dvouøadých hodnot. Prùmìrné mno¾ství potøebných poèítaných vzdáleností je velmi malé a mù¾e se mìnit kdekoli v intervalu od 0; 46 do 11; 10, v závislosti na mno¾inì dat a poètu po¾adovaných shlukù. Tabulka 3 srovnává ná¹ algoritmus s algoritmem P-CLUSTER a hybridním algoritmem. Z této tabulky mù¾eme odvodit následující závìry (v [1]): (1) Ná¹ algoritmus je výkonnìj¹í ne¾ algoritmus P-CLUSTER skoro ve v¹ech pøípadech pro malé mno¾ství iterací. Pro velké poèty iterací a mnoho dimenzionální data je výkonnìj¹í algoritmus P-Cluster. Toto chování je èásteènì zpùsobeno tím, ¾e algoritmus P-Cluster pou¾ívá heuristiku, která je více efektivní po

Methodologies for knowledge Discovery and Data Mining - Proceedings 99 5 nìkolika málo prvních iteracích. Pro vìt¹í mno¾ství iterací se toti¾ zlep¹ení výkonnosti na¹eho algoritmu významnì nemìní, jeliko¾ námi pou¾itá vytøiïovací strategie se bìhem iterací neoptimalizuje. (2) Hybridní algoritmus vyu¾ívá vlastností obou algoritmù a vìt¹inou je s nimi srovnatelný. Tabulka 3: Výsledky ADC tøí algoritmù po 10 iteracích Data k 16 64 128 P-Cluster Ná¹ alg. Hybridní P-Cluster Ná¹ alg. Hybridní P-Cluster Ná¹ alg. Hybridní DS1 4,66 0,51 0,51 6,59 0,96 0,99 9,80 1,39 1,49 DS2 3,51 0,25 0,25 5,55 0,64 0,66 8,28 1,48 1,56 DS3 4,02 0,41 0,42 7,83 1,08 1,12 7,99 1,87 1,98 R4 5,39 0,32 0,32 4,04 0,46 0,49 5,78 1,27 1,22 R8 5,73 1,87 2,13 7,62 2,68 3,19 8,57 3,92 3,85 R12 7,12 7,68 6,58 10,70 11,10 8,63 12,00 15,92 9,56 5 Závìr Pøedstavili jsme novou techniku pro vylep¹ení výkonnosti algoritmu pou¾ívajícího k-støed. Mù¾e zlep¹it výkonnost pøímého algoritmu uspoøádáním do dvouøadých hodnot, zatímco produkuje stejné (s výjimkou chyb zaokrouhlení) výsledky. Dále je tento algoritmus srovnatelný s algoritmem P-CLUSTER. Ná¹ algoritmus je výkonnìj¹í ne¾ P-CLUSTER skoro ve v¹ech pøípadech pro malý poèet iterací. Rovnì¾ jsme sestrojili a prezentovali hybridní algoritmus (pou¾ívá P-CLUSTER). Tento hybridní algoritmus empiricky ukázal, ¾e potøebuje men¹í (nebo srovnatelný) poèet výpoètù vzdáleností jako P-CLUSTER. Reference [1] K.AlSabti. Ecient Algorithms for Data Mining. Ph.D. Thesis, Syracuse University, 1998 [2] R.C.Dubes and A.K. Jain. Algorithm for Clustering Data. Prentice Hall, 1998. [3] D.Judd, P. McKinley, and A.Jain. Large-Scale Parallel Data Clustering. Proc. Int'l Conference on Pattenr Recognition, August 1996 [4] K.Mehrotra, C.K. Mohan, and S. Ranka. Elements of Articial Neural Networks