MĚŘENÍ PODOBNOSTI OBJEKTŮ A SLUKŮ PŘI SLUKOVÉ ANALÝZE S KVALITATIVNÍMI PROMĚNNÝMI A PROMĚNNÝMI RŮZNÝC TYPŮ Toáš Löster Abstrakt Sluková analýza je vícerozěrná statistická etoda, jejíž cíle je vytvářet nožiny objektů, tzv. sluky, v ráci kterýc by si objekty (vícerozěrná pozorování carakterizovaná řadou vlastností) ěly být co nejvíce podobné z lediska vnitroslukové struktury a co nejéně podobné z lediska ezislukové struktury. Slukovat lze také proěnné, případně kategorie noinálníc proěnnýc, případně objekty i proěnné současně. Sluková analýza je využívána v řadě vědníc oborů, j. v deografii. Klíčovou úlou ve slukové analýze zaujíá stanovení podobnosti objektů, přičež je potřeba rozlišit, jakýi typy proěnnýc jsou vlastnosti jednotlivýc objektů carakterizovány. Moou to být proěnné kvantitativní, kvalitativní (noinální nebo ordinální), nebo proěnné různýc typů (kobinace kvantitativníc a kvalitativníc proěnnýc). Cíle tooto příspěvku je popsat ožnosti ěření podobnosti objektů a sluků v případě, jsou-li objekty carakterizovány proěnnýi různýc typů. Klíčová slova: Sluková analýza, podobnost objektů, podobnost sluků JEL Code: C3, C38, C40 Úvod Klíčovou úlou ve slukové analýze zaujíá stanovení podobnosti objektů a sluků, přičež je potřeba rozlišit, jakýi typy proěnnýc jsou vlastnosti jednotlivýc objektů carakterizovány. Moou to být proěnné kvantitativní, kvalitativní (noinální nebo ordinální), nebo proěnné různýc typů. Zvláštní případe jsou dicotoické proěnné, které nabývají pouze dvou odnot. Obvykle jsou to odnoty 0 a a proěnné se označují jako binární. V případě, že jsou objekty carakterizovány pouze kvantitativníi proěnnýi, v současné literatuře existuje noo koeficientů, které vycází předevší z ěr vzdáleností, viz např. []. Mezi tyto íry patří například Euklidovská či Manattanská vzdálenost.
Měření podobnosti objektů V případě, že jsou objekty carakterizovány poocí proěnnýc různýc typů, pak je při ěření podobnosti dvou objektů využíván Gowerův koeficient podobnosti, viz [4], který je definován jako w A t = AGW =, () w t = kde w nabývá odnot 0 (jestliže odnota t-té proěnné u i-téo nebo j-téo objektu cybí nebo jsou obě tyto odnoty rovny nule a t-tá proěnná je binární), nebo (v ostatníc případec). Míra podobnosti A závisí na typu t-té proěnné. V případě, že t-tá proěnná je binární nebo noinální, pak A = pro x it = x jt, () A = 0 jinak. (3) V případě, že t-tá proěnná je kvantitativní pak xit x jt A = Rt, (4) kde R t je variační rozpětí t-té proěnné určené na základě celéo souboru. Dva objekty jsou si nejpodobnější v případě, že sluk z nic vytvořený vykazuje nejenší variabilitu. K ěření variability lze použít rozptyl v kobinaci s entropií. Variabilitu -téo sluku lze stanovit podle vzorce + st ) + t, (5) kde je počet kvantitativníc (spojitýc) proěnnýc, je počet noinálníc proěnnýc, s t je vyběrový rozptyl t-té proěnné a s t je výběrový rozptyl t-té proěnné v -té sluku, kde íra variability noinální proěnné pro t-tou proěnnou v -té sluku se určí jako t = K t u= n n tu n tu ln, (6) n
kde K t je počet kategorií t-té proěnné, je n tu je počet objektů u-té kategorie, t-té proěnné v -té sluku a n je počet objektů v -té sluku. Tento postup je využit ve dvoukrokové slukové analýze v systéu SPSS. Ta je navržena pro slukování velkéo počtu objektů a je založena na algoritu BIRC, v něž jsou objekty uspořádány do podsluků, které jsou carakterizovány poocí slukovacíc vlastností, viz [5]. V případě, že jsou objekty carakterizovány poocí kobinace kvantitativníc a noinálníc proěnnýc, je ožné navrnout íru variability s využití rozptylu a odnot Ginio koeficientu, tedy podle vzorce G + st ) + Gt. (7) Dále pro případ, kdy jsou objekty carakterizovány kvantitativníi a ordinálníi proěnnýi, je navíc ožné navrnout íru variability s využití rozptylu a koeficientu dorvar. Vypočítá se podle vzorce + st ) DK + DK. (8) Pokud by objekty byly carakterizovány pouze kvalitativníi proěnnýi, ze všec výše uvedenýc vzorců by byla vypuštěna ta část, která ěří variabilitu kvantitativníc proěnnýc, tj. výběrový rozptyl. Měření podobnosti sluků t Podobnost sluků se zjišťuje například u agloerativnío ierarcickéo slukování při postupné spojování nejpodobnějšíc sluků pro vytváření enšío počtu sluků. Mezi koeficienty, které vyjadřují vzájený vzta ezi objekty a sluky v případě, že jsou objekty carakterizované proěnnýi různýc typů, je ožné zařadit věroodnostní íru. Tato íra je využívána ve spojení s dvoukrokovou slukovou analýzou v systéu SPSS. Při ěření vzdálenosti D dvou sluků C a C, které jsou carakterizovány současně poocí kvantitativníc a noinálníc proěnnýc, se v toto případě využívá entropie v kobinaci s výběrový rozptyle a postupuje se tak, že se od odnoty variability sluku vznikléo
spojení dvou sluků tj. odečte součet odnot variabilit těcto dvou saostatnýc sluků, D ( C, C ) = ( + ). (9) VM V případě, že jsou objekty carakterizovány současně poocí kvantitativníc a noinálníc proěnnýc je ožné navrnout alternativu k postupu (9), tj. ěřit variabilitu poocí kobinace Ginio koeficientu a výběrovéo rozptylu, a tedy postupovat podle vztau D ( C, C ) = G ( G + G ). (0) VMG V případě, že jsou objekty carakterizovány současně poocí kvantitativníc a ordinálníc proěnnýc je ožné analogicky navrnout ěření variability poocí kobinace koeficientu dorvar a výběrovéo rozptylu, tj. postupovat podle vztau D ( C, C ) = DK ( DK + DK ). () VDK Závěr Při vyjadřování podobnosti objektů pro případ, že jsou objekty carakterizovány pouze kvantitativníi proěnnýi existuje v současné literatuře řada ěr. Pro případ, že jsou objekty carakterizovány víceodnotovýi kvalitativníi proěnnýi, existují k ěření podobnosti pouze oezené ožnosti. Vycází se z yšlenky, že dva objekty jsou si nejpodobnější, pokud sluk z nic vytvořený á nejenší variabilitu. K jejíu ěření se v praxi využívá entropie. Nově navržený způsobe je ěřit variabilitu poocí Ginio koeficientu (v případě noinálníc proěnnýc) či poocí koeficientu dorvar, založenéo na kuulativníc relativníc četnostec (v případě ordinálníc proěnnýc). I v případě, že jsou objekty carakterizovány proěnnýi různýc typů, se vycází z yšlenky, že dva objekty jsou si nejpodobnější, pokud sluk z nic vytvořený á nejenší variabilitu. K ěření variability se v praxi používá výběrový rozptyl v kobinaci s entropií. Nový návre je použít pro ěření variability rozptyl v kobinaci s odnotou Ginio koeficientu či odnotou koeficientu dorvar. Při vyjadřování podobnosti sluků obsaující objekty, které jsou carakterizované kvalitativníi proěnnýi, se postupuje tak, že se od odnoty variability sluku vznikléo spojení dvou sluků odečte součet odnot variabilit těcto dvou saostatnýc sluků. V praxi se k tou využívá entropie. Nový návre ěření variability sluků je použití také odnot Ginio koeficientu. Při vyjadřování podobnosti sluků obsaující objekty, které jsou
carakterizované proěnnýi různýc typů, se také postupuje tak, že se od odnoty variability sluku vznikléo spojení dvou sluků odečte součet odnot variabilit těcto dvou saostatnýc sluků. V praxi je variabilita sluků odnocena poocí ěr s využití výběrovéo rozptylu a entropie. Nový návre je použít pro ěření variability sluků také kobinaci výběrovéo rozptylu a Ginio koeficientu pro noinální porěnné. Při praktickýc úloác se na vybranýc souborec ukázalo, že použití Ginnio koeficientu při slukování je vodnější, než v praxi používaná entropie, viz [4]. Literatura [] GAN, G., MA C., WU J.: Data Clustering Teory, Algorits, and Applications, ASA, Piladelpia, 007. [] ALKIDI, M., BATISTAKIS, Y., VAZIRGIANNIS, M.: Clustering algorits and validity easures. SSDBM, Atens, 00. [3] ŘEÁK, J., ŘEÁKOVÁ, B.: Analýza kategorizovanýc dat v sociologii, Acadeia, Praa, 986. [4] ŘEZANKOVÁ,., ÚSEK, D., LÖSTER, R.: Clustering wit Mixed Type Variables and Deterination of Cluster Nubers, CNAM and INRIA, Paříž, 00, s. 55-53. [5] ŘEZANKOVÁ,., ÚSEK, D., SNÁŠEL, V.: Sluková analýza dat,. vydání, Professional Publising, Praa, 009. [6] ŘEZANKOVÁ,., ÚSEK, D.: Metods for te deterination of te nuber of clusters in statistical software packages, VŠE KSTP; VŠE KMIE, Praa, 008, s. -6. [7] ŘEZANKOVÁ,., LÖSTER, T., ÚSEK, D.: Evaluation of Categorical Data Clustering. Fribourg 6.0.0 8.0.0. In: Advances in Intelligent Web Mastering 3. Berlin : Springer Verlag, 0, s. 73 8. Kontakt Toáš Löster, Ing., P. D. Katedra statistiky a pravděpodobnosti Fakulta inforatiky a statistiky Vysoká škola ekonoická v Praze Ná. W. Curcilla 4, 30 67 Praa 3 Česká republika Tel.: +40 4095 484 E-ail: toas.loster@vse.cz