Kohoeova samoorgazuící mapa a eí aplace v maretgu Mgr. Ig. Davd Vít, vtdav1@fel.cvut.cz Alteratvou lascých metod shluové aalýzy sou bologcy sprovaé algortmy, zeméa metody založeé a umělých euroových sítích. Z velé abídy dosud popsaých modelů umělých euroových sítí e třeba se zaměřt a ty z metod, teré sou obecě vhodé pro exploračí aalýzu dat. Záladí model umělé euroové sítě vhodé pro využtí ve shluové aalýze představuí Kohoeovy samoorgazuící mapy (selforgazg map), patřící mez modely euroové sítě s učeím bez učtele. Svým chováí přpomíaí lascou optmalzačí metodu -průměrů (-meas) shluové aalýzy. Cílem této práce e posoudt, zda sou výsledy shluového rozladu zísaé pomocí Kohoeovy samoorgazuící mapy porovatelé se shluovým rozladem vytvořeým pomocí metody -průměrů, a vyhodott relevac a stabltu této metody pro eí případé využtí v maretgové trží segmetac. 1. Prcp Kohoeovy samoorgazuící mapy Jde o edovrstvou umělou euroovou síť, terá umožňue vzualzovat topograf a herarchcou struturu multdmezoálích dat trasformací do prostoru žší dmeze (tzv. omprese dat). Ve výoé vrstvě exstue mříža euroů s daou topologí (obvyle hexagoálí ebo čtvercovou), počet eích vstupů odpovídá dmez vstupího počtu proměých vstupího datového souboru, váhy vstupů euroů vycházeí z předložeých vstupích obetů a přeosová fuce představue vadratcou Euldovsou vzdáleost. N Nechť x R e áhodě zvoleý datový vetor, potom Kohoeova samoorgazuící mapa realzue eleárí proec fuce p (x) hustoty pravděpodobost x do R R, de w e váha eurou s dexem. Tato proece zachovává topolog původího vícerozměrého datového souboru. Pro porováváí e použta vhodá míra vzdáleost (epodobost) D, obvyle vadratcá Euldovsá vzdáleost. Nelepším * reprezetatem daého vstupího vetoru (tzv. referečím vetorem) e euro s dexem, pro ěž platí: N D( x, w * ) m ( x w ) 1 Výstupem eurou s dexem pro vstup x e hodota D x, w ) (.. Laterálím hbcem (postraím vazbam) síť vyhodotí euro s evyšší odezvou, terý se stae referečím vetorem daého vzoru. Učeí Kohoeovy samoorgazuící mapy tedy představue uspořádáí vetorů v mřížce ta, aby reprezetovaly příslušá vstupí data. Icalzačí hodoty vah euroů w se zpravdla staovuí áhodě, během procesu učeí se váhy edotlvých euroů adaptuí podle předládaých vzorů vstupích obetů.. Prcp metody -průměrů Adaptace vah euroů mřížy e aalogí postupého výpočtu ového cetrodu u optmalzačí shluovací metody -průměrů. Na začátu této metody e zvole počet shluů, a ehož záladě e vhodým způsobem určeo počátečích cetrodů. Tyto cetrody tvoří geometrcé středy výsledých shluů. Potom se zoumaí vzdáleost aždého obetu od aždého cetrodu ta, že se spočte Euldovsá vzdáleost obetu od cetrodu, a obet e přřaze eblžšímu cetrodu. Pro aždý shlu e pa spočte ový cetrod (vetor průměrých hodot edotlvých proměých) a zovu se opaue přřazeí všech obetů do shluů určeých ově spočteým cetrody. Celý postup probíhá ta dlouho, doud dochází přesuům obetů mez cetrody. Metoda slě závsí a pořadí obetů v datovém souboru, způsobu volby výchozích cetrodů, způsobu výpočtu polohy ového cetrodu, aož a zalost počtu hledaých shluů. Jde tedy o edetermstcou metodu, terá aleze pouze loálě optmálí výslede. Metoda -průměrů pracue s vattatvím, cméě byla avržea eí modface určeá pro smíšeá data, azvaá metoda -prototypů. V metodě -prototypů e použta specálí míra epodobost, terá ombue vadratcou Euldovsou vzdáleost, použtou pro vattatví data, s mírou užívaou pro pouze ategorálí data v metodě -modů, založeé a oefcetu prostého esouhlasu. Teto oefcet e defová ao poměr počtu proměých, u chž sou u obou obetů rozdílé hodoty, a celového počtu proměých. Použeme pomocé ozačeí Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 1 (celem 9)
d, [ x, x, ], teré říá, že d, 1, poud x, x,, a d, 0, poud x, x,. Koefcet prostého esouhlasu e defová ao m d, D 1., m Ačolv metoda -průměrů, resp. eí modface pro smíšeá data metoda -prototypů, eposytuí globálě optmálí řešeí, sou velm vhodé pro reduc rozsáhlých datových souborů, teré eí pro ech rozsah možo zpracovat ým shluovacím metodam. Míra epodobost použtá v metodě -prototypů lze mplemetovat do modfovaé Kohoeovy samoorgazuící mapy, a tím upravt pro oretí použtí pro datové soubory obsahuící proměé smíšeých typů. Toto rozšířeí mplemetace vycházeící ze SOM_PAK bylo pod ázvem NCSOM publováo autory Cheem a Marquesem bez aalýzy eho chováí vzhledem terpretac výsledů a porováí s lascým metodam shluové aalýzy. Programový balí mplemetace NCSOM eí bohužel dostupý. 3. Použtá metoda Pro posouzeí chováí Kohoeovy samoorgazuící mapy a vyloučeí případých systematcých chyb byl použt soubor volě dostupý balí softwarových prostředů SOM_PAK 3.1 vytvořeý přímo týmem, ehož čleem byl autor metody Teuvo Kohoe. Ja ž bylo uvedeo, záladím edostatem této metody pro eí přímé využtí ve shluové aalýze e eí omezeí a vattatví data vtřě využtá metra e založea a vadratcé Euldovsé vzdáleost. V případě, dy se ovšem použe datový soubor omezeý pouze a vattatví data, lze bez problému srovávat shluy vytvořeé pomocí Kohoeovy samoorgazuící mapy se shluy vytvořeým pomocí vhodě mplemetovaé metody -průměrů. Poud by se uázalo, že výsledy zísaé a vattatvích datech pomocí euroové sítě odpovídaí výsledům zísaým metodou -průměrů, bylo by možo algortmus Kohoeovy samoorgazuící mapy modfovat pro aplac metry užívaé v metodě -prototypů, a ta zobect teto model euroové sítě pro prác se smíšeým daty obsažeým ve výstupích datech maretgových dotazíů a ásledě plohodotě aplovat ao alteratví metodu hledáí modelu tržích segmetů. Jao vhodý datový soubor byl použt vzorový soubor car_sales.sav, dodávaý s produtem IBM SPSS v19, terý obsahue vattatví techcé parametry 157 osobích automoblů včetě eúplých obetů. Soubor obsahue data, terá obsahuí přrozeé shluy podle růzých techcých parametrů, proto e vhodý pro uvažovaé využtí ao testovací referečí soubor. Teto soubor byl pomocí produtu IBM SPSS v19 aalyzová s využtím mplemetovaé shluovací metody -průměrů s ohledem a počet shluů, terý orespodue požadavům ladeým a shluy, představuící modely tržích segmetů. V rámc testů byl z datového souboru vyřaze ede odlehlý obet, terý zresloval chováí metody -meas. Pro hledáí shluů byly využty ásleduící proměé původího souboru: cea, obem motoru, výo, rozvor, déla, šířa, pohotovostí hmotost, obem ádrže, spotřeba. Aby byly použté výsledy oretí, byla použta data po provedeí z-scores ormalzace edotlvých proměých. Zvoleá moža proměých by zasluhovala předchozí provedeí fatorové aalýzy, eboť u ěterých proměých exstue pravděpodobá závslost. Ncméě pro účely tohoto porováí to eí ezbyté, elož možá závslost ěterých proměých má vlv a terpretac zísaých shluových rozladů, olv a chováí zvoleých metod. Po provedeí růzých shluových rozladů pomocí -meas byl použtý datový soubor trasformová do datového formátu vstupího souboru programového balíu SOM_PAK a provedey ásledá opaovaá tréováí Kohoeovy samoorgazuící mapy. Výsledá data pro vzualzac atréovaé Kohoeovy samoorgazuící mapy byla pomocí utlty apsaé v programovacím azyce Java trasformováa do sado terpretovatelé podoby, obsahuící sezamy obetů v edotlvých alezeých shlucích spolu s formací o obetu, terý e eho reprezetatem, a evětší odchylce obetu zařazeého do tohoto shluu. Tato zísaá data sou vhodým podladem pro porováí chováí metody -průměrů a Kohoeovy samoorgazuící mapy. 4. Zpracováí uázových dat Př zpracováí datového souboru byl lade důraz a požadavy ladeé a trží segmet, tedy dostatečou defovatelost, velost, rozlštelost, přístupost a měřtelost. Tyto požadavy mpluí vymezeí možého počtu shluů tvořících shluový rozlad a maxmálí počet mez až 10 cílovým shluy dostatečé velost, přčemž za hrac dostatečé velost e možo brát shluy obsahuící více ež 10% obetů. Optmálí počet alezeých shluů a záladě předchozích emprcých testů by se měl pohybovat zhruba mez 3 až 6, poud maí představovat model tržích segmetů daého cílového trhu. Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa (celem 9)
4.1. Metoda -průměrů Pomocí IBM SPSS v19 byly provedey opaovaé shluové rozlady pomocí metody -průměrů s vadratcou Euldovsou vzdáleostí pro až 10 shluů. Metoda posytue pro daý datový soubor stablí výsledy př případém ém uspořádáí vstupích hodot př růzých astaveích a omezeí počtu terací algortmu. Z hledsa posouzeí homogeost výsledů vzhledem terpretac zísaých shluů představuí optmálí rozlad varaty se 4, 5 a 6 cílovým shluy. Shluové rozlady obsahuí ásleduící počty obetů: rozlad a 6 shluů: 54, 50, 15, 14, 11 a 7 obetů, rozlad a 5 shluů: 54, 47, 4, 14 a 1 obetů, rozlad a 4 shluy: 58, 49, 4 a 0 obetů. Vzhledem e zmňovaým požadavům ladeým a trží segmety byl zvole shluový rozlad a 4 shluy, terý obsahue ásleduící obety vstupího datového souboru: [A4] 5, 8, 9, 1, 9, 30, 3, 37, 38, 47, 48, 58, 59, 64, 67, 68, 80, 81, 83, 85, 86, 87, 9, 96, 97, 98, 10, 108, 110, 115, 118, 119, 14, 15, 16, 17, 18, 13, 133, 134, 135, 137, 140, 143, 147, 151, 15, 153, 154 [B4], 4, 6, 10, 11, 1, 13, 14, 18,, 3, 4, 8, 31, 33, 35, 43, 45, 49, 51, 5, 53, 55, 60, 61, 65, 66, 69, 70, 71, 7, 75, 8, 84, 88, 89, 90, 91, 93, 100, 103, 104, 105, 106, 107, 111, 11, 113, 116, 117, 10, 11, 1, 13, 138, 141, 155, 156 [C4] 1, 0, 6, 7, 36, 46, 50, 57, 6, 63, 79, 101, 114, 19, 130, 131, 136, 139, 14, 145, 146, 148, 149, 150 [D4] 7, 15, 17, 19, 5, 40, 41, 4, 44, 54, 56, 73, 74, 76, 77, 78, 94, 95, 99, 144. Zísaý shluový rozlad bude posuzová vzhledem výpočtům Kohoeovy samoorgazuící mapy. Chováí metody -průměrů e velm příemé v tom, že lze předem staovt počet hledaých shluů ta, aby odpovídal očeávaé strutuře datového souboru, a a záladě terpretace výsledů zvolt optmálí rozlad. Iterace algortmu mplemetovaého v IBM SPSS v19 sou uočey v době do edé muty. Pro další dodatečé srováí byl zvole shluový rozlad a 6 shluů, terý obsahue ásleduící obety datového souboru: [A6] 1, 5, 8, 9, 0, 1, 9, 30, 3, 36, 37, 38, 48, 58, 59, 63, 64, 67, 80, 81, 86, 87, 9, 96, 97, 10, 108, 110, 114, 115, 118, 119, 18, 13, 133, 134, 135, 137, 140, 143, 145, 146, 147, 148, 149, 150, 151, 15, 153, 154 [B6], 4, 6, 10, 11, 1, 13, 14, 18,, 3, 4, 8, 31, 33, 35, 45, 47, 49, 5, 55, 60, 65, 66, 68, 69, 70, 71, 75, 8, 83, 84, 85, 88, 90, 91, 93, 98, 100, 103, 104, 105, 106, 107, 11, 116, 10, 11, 1, 17, 138, 141, 155, 156 [C6] 40, 41, 4, 43, 51, 53, 56, 61, 89, 113, 13 [D6] 7, 15, 17, 19, 44, 54, 73, 74, 76, 77, 78, 94, 99, 111, 144 [E6] 6, 7, 46, 50, 57, 6, 79, 101, 19, 130, 131, 136, 139, 14 [F6] 5, 7, 95, 117, 14, 15, 16. 4.. Kohoeova samoorgazuící mapa Vzhledem vlastostem této umělé euroové sítě sou shluy ve vstupím datovém souboru reprezetováy edotlvým euroy mapy. Všechy obety datového souboru, echž referečí vetor e steý, patří do do steého shluu. Kohoeova mapa tedy fatorzue vstupí datový soubor a třídy evvalece dle referečích vetorů. V rámc programového balíu SOM_PAK 3.1 byly otestováy růzé varaty astaveí parametrů, přčemž pro fálí výsledy bylo v souladu s doporučeím autorů použta hexagoálí mříža s Gaussovou fucí oolí. Pro zlepšeí chováí mapy vzhledem chybému atréováí, teré e charaterzováo tzv. přerouceím mapy, e amísto čtvercové topologe mapy doporučea topologe obdélíová. Pro calzac váhových vetorů mapy byla použta metoda áhodé calzace. Obráze 1 Sammoovo mapováí přerouceé mřížy Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 3 (celem 9)
4..1.Volba vhodé velost mřížy Záladím problémem pro použtí Kohoeovy samoorgazuící mapy pro výstupí data maretgového dotazováí e otáza volby velost mapy. Smysluplé výsledy pro datový soubor velost 156 obetů e možo zísat pro mapy do velost maxmálě 6x7 euroů. Poud e apřílad zvolea velost mřížy 6x7 euroů, e alezeo 4 shluů, z chž polova obsahue méě ež 4 obety a pouze edý s velostí 13 e větší ež 10 obetů. Velost zísaých shluů sou ásleduící: 1,1,1,1,1,1,1,1,1,1,,,,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5,6,6,7,8,8,13. Z podoby shluového rozladu e zřemé, že eí relevatí vzhledem požadavům a ě ladeým. Mříža 5x6 euroů pa posytue ásleduící shluový rozlad sládaící se ze 30 shluů ásleduících velostí: 1,1,1,,,,,, 3,3,3,3,4,5,5,5,6,6,6,6,7,7,7,7,8,8,9,9,11,14. U mřížy 4x5 euroů e zísá teto shluový rozlad sládaící se ze 30 shluů ásleduících velostí: 1,1,3,3,4,6,6,6,6,7,7,7,8,9,9,10,10,13,15,4. Dvaáct shluů zísaých tréováí mapy o velost mřížy 3x4 euroy má potom ásleduící velost: 4,7,7,9,9,9,13,13,14,16,6,8. Využtelé výsledy bylo možo zísat až př použtí malých mříže o velostech x3 a x euroy. V případě mapy o velost x3 euroy bohužel docházelo př eím tréováí a použtém vstupím datovém souboru častému přerouceí mapy, zhruba 60% pousů o atréováí mapy sočlo touto chybou. V případě, dy edošlo př tréováí přerouceí mapy, byly opaovaé výsledé shluové rozlady pro tutéž velost mřížy detcé. U aždého shluu e a oc uvede eho referečí vetor včetě eho (x, y) souřadc v mapě. U obdélíové mřížy velost x3 bylo alezeo 6 shluů o velostech: 8,10,14,0,50,53 obetů. Jedotlvé shluy obsahuí ásleduící obety: [Ax3] 1, 5, 8, 0, 6, 7, 3, 36, 37, 46, 48, 50, 57, 58, 59, 6, 63, 67, 79, 80, 81, 86, 87, 9, 96, 97, 101, 10, 110, 114, 115, 118, 18, 19, 130, 131, 13, 133, 134, 135, 136, 137, 139, 140, 14, 145, 146, 147, 148, 149, 150, 151, 15, ref. [1 (1, 0)] [Bx3], 3, 11,, 3, 8, 49, 65, 70, 88, 103, 107, 17, 138, ref. [ (0, 1)] [Cx3] 4, 6, 7, 1, 13, 14, 15, 16, 17, 19, 5, 31, 33, 35, 39, 40, 41, 4, 43, 44, 51, 5, 53, 54, 56, 61, 66, 69, 7, 73, 74, 76, 77, 78, 84, 89, 90, 91, 93, 94, 95, 99, 100, 104, 111, 113, 1, 13, 141, 144, ref. [4 (0, )] [Dx3] 9, 47, 68, 83, 85, 98, 14, 154, ref. [9 (1, 1)] [Ex3] 10, 18, 4, 45, 60, 71, 75, 8, 105, 106, 109, 11, 116, 117, 10, 11, 15, 16, 155, 156, ref. [10 (1, )] [Fx3] 1, 9, 30, 38, 55, 64, 108, 119, 143, 153, ref. [1 (0, 0)]. Pro vzualzac zísaých výsledů abízí programový balí SOM_PAK 3.1 ásleduící možost. Grafcá vzualzace mapy uazue eí topolog se zázorěím vzdáleost referečích vetorů ve formě úroví šed čím tmavší e oblast mez dvěma euroy mřížy, tím e ech vzdáleost větší. Bohužel eí z Kohoeovy samoorgazuící mapy možo zstt vzdáleost referečích vetorů vysytuících se a oraích mapy. Vzhledem tomu, že aplace v trží segmetac vyžadue malý počet velých homogeích výsledých shluů, eposytue a tato forma vzualzace relevatí představu o vzdáleost edotlvých shluů. Obráze Vzualzace topologe atréovaé mapy velost x3 Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 4 (celem 9)
Vzualzace ve formě Sammoova mapováí uazue ve dvourozměrém prostoru vzáemou poměrou vzdáleost edotlvých referečích vetorů mapy odpovídaící původí Euldovsé vzdáleost ech vzorů ve vícerozměrém vstupím prostoru. Obráze 3 Sammoova proece atréovaé mapy velost x3 U čtvercové mřížy velost x euroů bylo zísáy 4 shluy o velostech 14,17,59,65 obetů, echž podoba e ásleduící: [Ax] 1, 5, 8, 9, 0, 1, 6, 7, 9, 30, 3, 36, 37, 38, 46, 48, 50, 57, 58, 59, 6, 63, 64, 67, 79, 80, 81, 86, 87, 9, 96, 97, 101, 10, 108, 110, 114, 115, 118, 119, 14, 18, 19, 130, 131, 13, 133, 134, 135, 136, 137, 139, 140, 14, 143, 145, 146, 147, 148, 149, 150, 151, 15, 153, 154, ref. [1 (1, 1)] [Bx], 3, 11,, 3, 4, 8, 45, 49, 55, 65, 88, 103, 107, 116, 10, 138, ref. [ (0, 1)] [Cx] 4, 6, 7, 1, 13, 14, 15, 16, 17, 18, 19, 5, 31, 33, 35, 39, 40, 41, 4, 43, 44, 51, 5, 53, 54, 56, 60, 61, 66, 69, 71, 7, 73, 74, 76, 77, 78, 8, 84, 89, 90, 91, 93, 94, 95, 99, 100, 104, 105, 109, 111, 11, 113, 11, 1, 13, 141, 144, 156, ref. [4 (0, 0)] [Dx] 10, 47, 68, 70, 75, 83, 85, 98, 106, 117, 15, 16, 17, 155, ref. [10 (1, 0)]. Zísaá vzualzovaá mříža vypadá ásledově, e vdět, že v rámc edotlvých shluů e mez obety velá vzdáleost. Obráze 4 Vzualzace topologe atréovaé mapy velost x Sammoovo mapováí pro tato atréovaou Kohoeovu samoorgazuící mapu vypadá ásledově. Obráze 5 Sammoovo mapováí atréovaé mapy velost x Pro porováí výsledů budou použty shluové rozlady pro velost mřížy x a x3, eboť počty a velost zísaých shluů v těchto případech orespoduí s požadavy ladeým a velost a počet hledaých shluů. Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 5 (celem 9)
5. Porováí výsledů metod Pro srováí chováí lascé optmalzačí shluovací metody -průměrů a Kohoeovy samoorgazuící mapy vydeme z předpoladu, že shluové rozlady použtého vstupího datového souboru, vytvořeé lascou metodou v ástro IBM SPSS v19, vzhledem terpretovatelost vzlých shluových rozladů dobře charaterzuí vstupí datový soubor vzhledem e specfcým požadavům ladeým a detfovaé shluy př aplac v trží segmetac. Výsledy zísaé v rámc aplace programového balíu SOM_PAK posoudíme z hledsa hypotézy ezávslost a shluovém rozladu pomocí metody -průměrů. Na záladě výsledů obou metod pro rozlady a 4 a a 6 shluů vytvoříme ombačí tabulu, de v řádcích budou uvedey shluy dle edé metody a ve sloupcích uvedey shluy dle druhé. V polích ombačí tabuly pa budou uvedey počty obetů vstupího datového souboru, teré byly přřazey do daé ombace shluů dle obou algortmů odpovídaící daému pol tabuly. Nezávslost v ombačí tabulce bude otestováa pomocí - testu ezávslost v ombačí tabulce. Nulovou hypotézu o ezávslost v ombačí tabulce dle tohoto testu zamíteme, poud pro hodotu testového rtéra s r 1 1. r. r. r. r platí, že e větší ež rtcá hodota velčy pro stupeň volost f ( r 1).( s 1 ), de r e počet ategorí u řádové proměé a s e počet ategorí u sloupcové proměé. Hodota začí počet obetů ve statstcém souboru, hodota ozačue počet obetů dle -té řádové a -té sloupcové ategore, tedy zařazeých do -tého shluu dle prví metody a do -tého shluu dle druhé metody, r e relatví četost výsytu -té řádové ategore a r e relatví četost výsytu -té sloupcové ategore. Testové rtérum ověříme a hladě výzamost 1%. Pro shluové rozlady a 6 shluů e test provádě pro 5 stupňů volost a dostatečě velém datovém souboru. Kombačí tabula pro teto případ vypadá ásledově. A6 B6 C6 D6 E6 F6 p Ax3 39 0 0 0 14 0 53 0,351 Bx3 0 13 0 0 0 0 13 0,086 Cx3 0 19 11 0 0 3 33 0,19 Dx3 5 0 15 0 1 3 0,15 Ex3 0 16 0 0 0 3 19 0,16 Fx3 9 1 0 0 0 0 10 0,066 50 54 11 15 14 7 151 p 0,331 0,358 0,073 0,099 0,093 0,046 Tabula 1 Kombačí tabula pro shluové rozlady se 6 shluy Pro test ezávslost shluových rozladů dle metody -průměrů a Kohoeovou samoorgazuící mapou s mřížou x3 euroy a hladě výzamost 1 % zísáváme hodotu testového rtéra t test = 74,3301, tato hodota e výrazě vyšší, ež rtcá hlada t (5) 44, 3141. Na hladě výzamost 1 % tedy rt vyvracíme ulovou hypotézu a tím proazueme závslost shluového rozladu pomocí obou metod. Př blžším pohledu do ombačí tabuly e zřemé, že byl aleze ede velý společý shlu s 39 obety tvořeý shluy A6 a Ax3. Shlu E6 e z hledsa Kohoeovy samoorgazuící mapy odtržeou částí shluu A6. Jedý další výzaměší shlu společý pro oba rozlady e tvoře průem shluů D6 a Dx3. Pro shluové rozlady a 4 shluy e test provádě pro 9 stupňů volost a dostatečě velém datovém souboru. Kombačí tabula pro teto případ vypadá ásledově. Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 6 (celem 9)
A4 B4 C4 D4 p Ax 41 0 4 0 65 0,430 Bx 0 16 0 0 16 0,106 Cx 0 36 0 0 56 0,371 Dx 8 6 0 0 14 0,093 49 58 4 0 151 p 0,35 0,384 0,159 0,13 Tabula Kombačí tabula pro shluové rozlady se 4 shluy Pro test ezávslost shluových rozladů dle metody -průměrů a Kohoeovou samoorgazuící mapou s mřížou x euroy a hladě výzamost 1 % zísáváme hodotu testového rtéra t test = 161,0666, tato hodota e výrazě vyšší, ež rtcá hlada t (9) 1, 6660. Na hladě výzamost 1 % tedy rt vyvracíme ulovou hypotézu a tím proazueme závslost shluového rozladu pomocí obou metod. Velým společým shluem se 41 obety e prů shluů A4 a Ax. Shlu Cx porývá celý shlu D4 a zhruba dvě třety shluu B4. Rozdíly mez shluovým rozlady dle obou metod vycházeí eda ze způsobu určeí středu shluu, dy metoda -průměrů počítá cetrod daého shluu, dežto v případě tréováí Kohoeovy samoorgazuící mapy e referečí vetor reprezetová edím orétím vstupím vetorem dle mplemetovaé stratege vítěz bere vše. Dalším fatorem ovlvňuícím rozdílost výsledů obou metod e chováí fuce oolí eurou, terá e použta v algortmu tréováí Kohoeovy samoorgazuící mapy. 6. Zhodoceí Aplace umělých euroových sítí představuí velm atratví oblast výzumu v moha oborech včetě exploračí aalýzy dat. Poud e exploračí aalýza dat použta v orétí problémové oblast, ao e v tomto čláu maretgová trží segmetace, musí být v úvahu bráo chováí edotlvých metod, charater a podmíy ladeé a hledaé shluy, aby ech ásledá terpretace sutečě vyadřovala hledaé vztahy a souvslost mez reálým obety. Shluová aalýza e prostředem pro vytvořeí taového zedodušeého modelu reálého světa, terý umoží efetví využtí matematcých metod pro alezeí modelu eho strutury, eíž zpětá proece a obety reálého světa umoží popsat rověž eho struturu. Obecě platí, že aždá metoda exploratví aalýzy vrátí určté výsledy a úlohou výzumía e posoudt ech relevac vzhledem problémové oblast. Kohoeova samoorgazuící mapa abízí velm zaímavý aparát pro aalýzu ezámého vstupího datového souboru, přčemž v lteratuře zmňovaé aplace a ategorzac webových zdroů sou pro tuto shluovací metodu vhodé, eboť e hledá předem edefovaý větší počet shluů. V případě použtí pro trží segmetac exstue velm strtí omezeí a maxmálí počet hledaých shluů, esmí ít o více ež 10 shluů. V případě, dy se použe Kohoeova samoorgazuící mapa s větším počtem euroů ež e počet očeávaých shluů, eí možo trasformovaá data dále agregovat do mešího počtu shluů. Zísáme sce trasformovaý dvorozměrý obraz vícedmezoálího vstupího souboru, ale ztrácíme formace o eho strutuře. Z tohoto hledsa posytue tato umělá euroová síť mohem meší možství formací ež př využtí lascých herarchcých shluovacích metod typu AGNES č MONA. Sammoovo mapováí vzualzue Euldovsou vzdáleost mez vzory referečích vetorů mřížy mapy, cméě eí zřemé, a tyto shluy vypadaí a a se sobě blíží. Pro edotlvé obety e sce dspozc hodota chyby vzhledem referečímu vetoru, ale elze zstt, aá e tato chyba vzhledem referečím vetorům sousedích shluů, resp. obetům sousedích shluů. Referečí vetory př tréováí mapy větších rozměrů maí avíc tedec rozmsťovat se po ora mapy. Ja bylo zmíěo, pro využtí v trží segmetac se podle dosavadích emprcých testů evhodě chovaí herarchcé shluovací metody, teré posytou úplou zalost strutury vstupího datového souboru. Na záladě aalýzy této strutury lze pomocí růzých rtérí rozhodout o optmálím shluovém rozladu, terý Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 7 (celem 9)
elépe reprezetue závslost př současém respetováí požadavů ladeých a efetví trží segmety. Nevýhodou herarchcých metod e pa utost vytvořeí a práce s matcí epodobostí edotlvých obetů. Z tohoto důvodu lze tyto metody používat pouze pro datové soubory omezeé velost. Pro zpracováí velých datových souborů e vhodá dvouroová shluová aalýza, dy v prví fáz e výrazým způsobem zmešea velost datového souboru ěterou výpočetě eáročou optmalzačí metodou, a teprve ve druhé fáz e provedeo vlastí herarchcé shluováí, teré detfue cílové shluy, teré sou modelem tržích segmetů. Jao velm vhodou metodu prvího rou dvouroové shluové aalýzy lze využít zmňovaou optmalzačí metodu -prototypů, dy se zreduue velost původího datového souboru a ový datový soubor obsahuící o ede č více řádů méě obetů, teré představuí cetrody shluů zísaých ao výslede v prvím rou použté metody -prototypů. Srová-l se cetrod s referečím vetorem, e zřemé, že cetrod podle zvoleé metody výpočtu mohem lépe vysthue polohu shluu vzhledem oolím shluům. Sce by bylo možo reduovat velost původího datového souboru pomocí Kohoeovy samoorgazuící mapy větší dmeze a potom v dalším rou dvouroové shluové aalýzy pracovat pouze se vzory referečích vetorů, cméě vzor referečího vetoru ao reprezetata shluu e méě přesý ež cetrod určeý pomocí lascé optmalzačí metody - průměrů, resp. -prototypů. Tato systematcá chyba evíce ovlvla rozdílost shluů vytvořeých pomocí metody -průměrů a Kohoeovy samoorgazuící mapy. Metoda -prototypů e závslá a volbě hodoty edé emprcé ostaty v průběhu terací, podobě ao metoda -průměrů eí determstcá, eboť závsí a pořadí obetů ve vstupím datovém souboru, cméě eí mplemetace v IBM SPSS v19 se chová z hledsa alezeí shluového rozladu velm stablě. Naprot tomu Kohoeova samoorgazuící mapa závsí a volbě topologe mřížy, tvaru oolí, velost mřížy, požadovaému učícímu rou, způsobu calzace vstupích vetorů a počtu terací. Ačolv bylo dosažeo shodých výsledů př opaovaých pousech, u ěterých tvarů mřížy a počtů terací docházelo e zmíěému přerouceí mřížy, teré vyžadovalo opaovaé tréováí mapy. Nevětší vlv a proces tréováí mapy má úvodí calzace vetorů mřížy, terá vychází z áhodého astaveí a e zcela edetermstcá. Z tohoto hledsa se v případě Kohoeovy samoorgazuící mapy eedá o stablí shluovací metodu. Doba tréováí Kohoeovy samoorgazuící mapy mplemetovaé v balíu SOM_PAK 3.1 byla avíc více ež řádově delší ve srováí s výpočtem metody -průměrů v produtu IBM SPSS v19, tedy z tohoto hledsa se eví méě vhodá zeméa př dílčím zpracováí větších datových souborů, pro teré e výhodé využívat optmalzačí shluovací metody typu -prototypů č -průměrů. Ačolv tedy lze Kohoeovy samoorgazuící mapy obecě využít pro shluovou aalýzu, ech vlastost esou pro aplac v trží segmetac výhodé a epřáší žádá poztví vylepšeí oprot lascým shluovacím metodám. Lze tedy závěrem říc, že v stuac, dy exstue specfcý algortmus pro řešeí orétího problému, tato umělá euroová síť eposytue vhoděší výpočetí aparát. Př hledáí velého počtu shluů ve velých vstupích datových souborech se potom Kohoeova samoorgazuící mapa blíží chováí metody -průměrů. Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 8 (celem 9)
Použtá lteratura ŘEZANKOVÁ, H., HÚSEK, D., SNÁŠEL, V. Shluová aalýza dat. Praha: Professoal Publshg 007 EVERITT, B.S., LANDAU, S., LEESE, M. Cluster aalyss, 4th edto. Lodo: Arold, a member of the Hodder Headle Group 001 HEBÁK, P., HUSTOPECKÝ, J., PECÁKOVÁ, I., PRŮŠA, M., ŘEZANKOVÁ, H., SVOBODOVÁ, A., VLACH, P. Vícerozměré statstcé metody (3). Praha: Iformatorum 006 Electroc Statstcs Textboo [ole]. Tulsa: StatSoft 007. Dostupý z WWW: http://www.statsoft.com/textboo/stathome.html KOHONEN, T., HYNNINEN, J., KANGAS, J., LAAKSONEN, J. SOM_PAK The Self-Orgazg Map Program Pacage Verso 3.1 [ole]. Hels: Hels Uversty of Techology 1995. Dostupý z WWW: http://www.cs.hut.f/research/som_lvq_pa.shtml ZHEXUE, H. Clusterg large data sets wth mxed umerc ad categorcal values. I Lu Hogu, Motoda Hrosh, Lu Hua (eds), Proceedgs of the 1st Pacfc-Asa Koferece o Kowledge Dscovery & Data Mg. Sgapore, World Scetfc (1997) 1-34 CHEN, N., MARQUES, N.C. A Exteso of Self-Orgazg Maps to Categorcal Data [ole]. Caparca: Uversdade Nova de Lsboa. Dostupý z WWW: http://ssd.d.fct.ul.pt/~mm/mypapers/nm05.pdf XU, R., WUNSCH, D.C. Clusterg. Pscataway: IEEE Press 007 PALLANT, J. SPSS Survval Maual, 3rd Edto. Madehead: Ope Uversty Press 007 DARREN, K., MALLERY, P. SPSS for Wdows Step-by-Step: A Smple Gude ad Referece, 10.0 Update (3rd Edto). Pretce Hall 000 ŠNOREK, M. Neuroové sítě a europočítače. Praha: Vydavatelství ČVUT 004 KOHONEN, T. Self-Orgazg Maps. Berl: Sprger-Verlag 1995 VÍT, D. Využtí shluové aalýzy v maretgu: master thess. Prague: CTU FEE 009 VÍT, D. Vlv maretgového dotazováí a detfac tržích segmetů. Prague: Maretg & omuace. 009, roč. XIX, č. 4, s. 17-19. VÍT, D. Iterpretato of moothetc ad polythetc clusterg method results for maretg questoare processg : paper draft for Acta Polytechca. Prague: CTU FEE 009. Word Documet. Upublshed. VÍT, D. Aplace ástroe PASW SPSS 18.0 Base v trží segmetac: semar thess. Prague: CTU FEE 010. Word Documet. Upublshed. Teto text vzul v rámc předmětu Neuroové sítě a europočítače (XP36NAN) Straa 9 (celem 9)