STATI SROVNÁNÍ METOD PRO REDUKCI DIMENZIONALITY APLIKOVANÝCH NA ORDINÁLNÍ PROMĚNNÉ Luáš Sobíše, Haa Řezaová * Úvod Důležitým ástrojem při růzých výzumech v eoomicé sféře, apřílad při průzumech trhu, jsou dotazíová šetřeí. Jejich pomocí jsou zísáváy ázory a hodoceí respodetů. Aalyzovaé datové soubory se vyzačují velým zastoupeím ordiálích proměých, což je potřeba zohledit při apliaci statisticých metod. Vzhledem obvyle začému počtu proměých je při vícerozměré aalýze velmi výzamým fatorem jeho reduce. Kromě výběru ejvýzamějších proměých (podle určitého hledisa) hrají důležitou roli metody sloužící reduci rozměru úlohy. Jejich výsledem jsou odvozeé proměé, teré zachycují vztahy mezi původími proměými. Při vícerozměrých aalýzách pa lze respodety charaterizovat pomocí mešího počtu těchto odvozeých proměých. V čláu se zaměřujeme a staovováí supi podobých proměých, teré mohou být iterpretováy jao fatory charaterizující sledovaé objety. K tomuto účelu můžeme využít růzé metody, jejichž výsledy emusí být stejé. V dalším textu avrhujeme jeda iterpretovat zísaé výsledy pomocí fuzzy shluové aalýzy, jeda tyto výsledy ombiovat do oečého staoveí supi proměých. Součástí avržeého postupu je i zjištěí vhodého počtu supi. Pro reduci dimezioality doporučujeme objety charaterizovat pomocí proměých, teré reprezetují daé supiy. * Vysoá šola eoomicá v Praze, Faulta iformatiy a statistiy (xsobl06@vse.cz, haa.rezaova@vse.cz). Čláe vzil v rámci gratů GAČR P202/10/0262 a IGA VŠE F4/3/2010. Děujeme PhDr. Marcele Moulisové, Ph.D., a PaedDr. Zdeňu Valjetovi, Ph.D., za posytutá data a Ig. Michaele Ryšáové a Ig. Vadě Vilhaové za pomoc při přípravě datových souborů. 3
ACTA OECONOMICA PRAGENSIA 1/2011 Pro aalýzu vztahů mezi proměými jsme využili lasicou a disrétí fatorovou aalýzu, shluové modely latetích tříd, ategoriálí aalýzu hlavích ompoet, metricé i emetricé vícerozměré šálováí. Poud metody umožňují při aalýze vycházet z matice podobostí, byla využita matice vytvořeá a záladě Kedallova oeficietu pořadové orelace. Jedotlivé metody a jejich růzé ombiace jsme porovávali pomocí vality shluů, vytvořeých a záladě iterpretace zísaých hodot ompoet (dimezí) s využitím fuzzy shluové aalýzy. Shluy byly hodocey pomocí tří vybraých oeficietů. Metody reduce dimezioality jsme apliovali a dva reálé datové soubory z dotazíových šetřeí s proměými a pětibodové a sedmibodové ordiálí šále. Využili jsme přitom programové systémy SPSS, STATISTICA a Latet GOLD. Fuzzy shluová aalýza byla prováděa v systému S-PLUS. Výsledé přiřazeí proměých do supi bylo zázorěo pomocí obrysového grafu. Další text je uspořádá ta, že v seci 1 jsou ejprve stručě charaterizováy vybraé statisticé metody, teré lze využít reduci dimezioality, a jié použité postupy. V seci 2 jsou popsáy experimety a jejich výsledy. Celové zhodoceí je obsažeo v závěru čláu. 1. Použité metody a jejich specifiace Záladími metodami, teré umožňují reduovat dimezi vetorů charaterizujících objety zahruté do aalýzy, jsou aalýza hlavích ompoet (PCA Pricipal Compoet Aalysis) a fatorová aalýza (FA Factor Aalysis). Tyto metody umožňují ahradit větší počet původích proměých meším počtem proměých latetích, přičemž mezi původími proměými předpoládají vzájemé lieárí vztahy. Tradičí model fatorové aalýzy vychází z předpoladu, že latetí proměé jsou spojité, ormálě rozděleé áhodé veličiy. Výpočty jsou založey a orelačí matici pro původí proměé. Pro účely tohoto čláu jsme v systému SPSS využili matici vycházející z hodot oeficietu pořadové orelace, viz íže. Rozsáhlou supiou metod pro alezeí supi latetích proměých jsou modely latetích tříd (též modely LC Latet Class, či LCA Latet Class Aalysis). Z orétích metod lze uvést shluové modely latetích tříd (modely LCC Latet Class Cluster), modely disrétí fatorové aalýzy (modely LC DFactor, resp. zráceě DFactor), aalýzu latetích charateristi (LTA Latet Trait Aalysis), aalýzu latetích profi lů (LPA Latet Profi le Aalysis), regresí modely latetích tříd (modely LCR Latet Class Regressio). Více o těchto metodách viz Vermut (2005). Pro účely tohoto čláu jsme v rámci systému Latet GOLD použili modely LCC a DFactor. Protože metoda PCA je určea pro aalýzu vatitativích spojitých proměých, pro ategoriálí proměé je vhodé využít jiých postupů. Jedím z ich je ategoriálí aalýza hlavích ompoet (CATPCA CATegorical Pricipal Compoet Aalysis), terá trasformuje ategoriálí proměé a proměé vatitativí a lze uvažovat i elieárí vztahy mezi proměými. Aalýzu pomocí stejojmeé procedury jsme realizovali v systému SPSS. 4
AOP 19(1), 2011, ISSN 0572-3043 Něteré techiy reduce dimeze dat jsou založey a projeci vícedimezioálího prostoru do prostoru s méě dimezemi při zachováí maximálí variability dat. Každý z objetů, charaterizovaý vetorem hodot p proměých, je zobraze jao bod v -rozměrém prostoru, ta aby platilo < p. K těmto metodám patří již výše zmíěá metoda PCA a dále vícerozměré šálováí (MDS MultiDimesioal Scalig). Výběr hlavích os (dimezí) v lasicé metodě MDS je evivaletí výběru p hlavích ompoet v metodě PCA, viz apř. Hebá (2007). Metoda MDS je zobecěím fatorové aalýzy. Zatímco FA se zaměřuje a vztahy mezi proměými a vychází z orelačí matice, MDS může vycházet z libovolé matice, terá vyjadřuje vztahy buď mezi proměými, ebo mezi objety. Pro účely tohoto čláu jsme použili procedury ALSCAL a PROXSCAL v systému SPSS a emetricé vícerozměré šálováí NMMDS v systému STATISTICA. Metoda MDS (obdobě jao ěteré metody shluové aalýzy) vychází z matice vzdáleostí (epodobostí, odlišostí) pro všechy ombiace dvojic objetů či proměých. Tato vzdáleost může být vypočtea a záladě podobosti. Pro dvě proměé lze jejich podobost ohodotit pomocí ěteré z měr vzájemé (symetricé) závislosti. Záladí mírou podobosti dvou vatitativích proměých je výběrový Pearsoův orelačí oeficiet. Pro měřeí podobosti ordiálích proměých lze využít Spearmaův či Kedallův oeficiet pořadové orelace, oeficiet γ či τ c, případě symetricé Sommersovo d. Podrobý výčet měr pro růzé typy proměých, společě s výpočetím postupem, je uvede apř. v Řezaová (2009). Pro apliace popsaé v tomto čláu byl v rámci všech tří výše zmíěých metod vícerozměrého šálováí a též ve fatorové aalýze použit Kedallův oefi ciet pořadové orelace τ b, založeý a porováváí dvojic objetů a počítaý podle vzorce ôτ b, ( )( ) l (1) de Г je počet oordatích párů, Δ je počet disordatích párů, Ψ je počet párů, teré obsahují stejou hodotu zau X, ale růzou hodotu X l, Ψ l je počet párů, teré obsahují stejou hodotu zau X l, ale růzou hodotu X. Zařazeí proměých do supi a záladě zísaých hodot dimezí (ompoet) bylo provedeo pomocí fuzzy shluové aalýzy. Pro spojováí výsledů zísaých pomocí růzých metod do jediého výsledu byl využit přístup CSPA (Cluster-based Similarity Partitioig Algorithm). 1.1 Fatorová aalýza Cílem fatorové aalýzy je alézt latetích proměých (fatorů) F i, i = 1, 2,,, teré co ejlépe vysvětlí závislosti mezi p pozorovaými proměými X j, j = 1, 2,, p. Na rozdíl od metody PCA, jež provádí ortogoálí trasformaci vzájemě lieárě závislých proměých, FA idetifiuje statisticý model. Nechť X je p-rozměrý áhodý vetor uvažovaých veliči s vetorem středích hodot μ, ovariačí maticí 5
ACTA OECONOMICA PRAGENSIA 1/2011 Σ a orelačí maticí P. Model fatorové aalýzy vychází z této matice P a můžeme ho zapsat ve tvaru X = μ + ΓF + E, (2) de F začí -rozměrý áhodý vetor společých fatorů, Γ je matice fatorových zátěží typu p x a E je p-rozměrý vetor specifi cých (chybových) fatorů. Předpoládá se, že společé fatory F i a specificé fatory ε i jsou avzájem eorelovaé a mají ulovou středí hodotu, tj. E(F i ) = 0, E(ε i ) = 0 a Cov(F,E) = 0, Cov(F) = I a Cov(E) = Ψ je diagoálí matice. Za těchto předpoladů lze ovariačí matici vstupí matice proměých zapsat jao X = ΓΓ T + Ψ. (3) Fatory F i se iterpretují pomocí orelace s původími proměými X j. Korelačí matici můžeme zapsat ve tvaru P XF = D -1/2 + Γ, (4) de D je diagoálí matice, jejíž prvy jsou rozptyly původích pozorovaých proměých, tj. D = diag (σ X1 X 1,..., σ Xp ). Xp Fatorová aalýza může též vycházet z ormovaých veliči Z j s ulovými středími hodotami a s jedotovými rozptyly. Uvedeý model pa zapíšeme ve tvaru Z XF = Γ * F * + E *, (5) ve terém je rozdíl především ve výzamu matice Γ *. Prvy této jsou matice orelačími oeficiety mezi proměými X j a fatory F i, tj. P XF = Γ *. Fatory iterpretujeme přímo pomocí fatorových zátěží, více o metodách apř. viz Hebá (2007). Odhady Ψ, ˆ Γ ˆ parametrů Ψ, Γ fatorového modelu S XF = Γ ˆ Γ ˆ + Ψ ˆ (6) vycházejí z odhadu ovariačí matice S, resp. z odhadu orelačí matice R. Počet parametrů (stupňů volosti) d = 1/2(p ) 2 1/2(p + ) zároveň defiuje horí hraici počtu fatorů, teré můžeme modelem idetifiovat. Poud d = 0, existuje jedozačé řešeí. V praxi vša většiou platí, že d > 0, a řešeí zísáme aproximacemi. Pro odhad parametrů se zejméa používají tři postupy: metoda maximálí věrohodosti, metoda hlavích fatorů a metoda hlavích ompoet, jejichž výpočetí algoritmy jsou uvedey apř. v Mardia (1979). Při aalýzách, jejichž výsledy jsou uvedeé v tomto čláu, byl použit třetí postup. 6
AOP 19(1), 2011, ISSN 0572-3043 1.2 Modely latetích tříd Modely latetích tříd (LC) předpoládají, že existuje relativě malý počet epozorovaých (srytých) proměých Y i, de i = 1, 2,,. Tyto latetí proměé stojí v pozadí vzájemých vztahů mezi sledovaými proměými X j, j = 1, 2,..., p, de X j abývá D j odlišých hodot. Modely LC se od sebe vzájemě liší v požadavcích a typ a pravděpodobostí rozděleí pozorovaých a srytých veliči, viz Vermut (2005). Pro účely tohoto čláu jsou uvažováy modely, teré předpoládají, že latetí proměé jsou disrétí áhodé veličiy. Uvažujme jedu omiálí srytou proměou Y obsahující tříd. Jedotlivé třídy začíme symbolem y, de y {1, 2,, }. Axiomem modelů LC je loálí (podmíěá) ezávislost v tom smyslu, že poud je určea áležitost všech sledovaých objetů do jedotlivých tříd latetí proměé, tyto latetí proměé jsou avzájem ezávislé, viz Bartholomew (2002). Loálí ezávislost áhodých veliči X i lze vyjádřit vztahem p P(XX = x Y y) P( X = x Y = y). (7) j1 j j LC model je založe a předpoladu, že zísaá data byla vygeerováa směsí pravděpodobostích rozděleí. To lze vyjádřit pomocí Bayesova vzorce úplé pravděpodobosti: X = x X = x üüü, (8) y1 jiými slovy, pravděpodobost zísáí orétího vetoru x je vážeým průměrem podmíěých pravděpodobostí P(X = x Y = y), jejichž počet je a de PY y Kombiací vzorců úplé pravděpodobosti a vzorce pro axiom loálí ezávislosti zísáváme lasicý LC model: y1 1. X = x j j. (9) P P Y y P X x Y y y1 j1 Odhady veliosti tříd estp(y) = a odhady podmíěých pravděpodobostí hodot x i v jedotlivých třídách, tj. P(X j = x j Y = y) = v y, zísáváme metodou maximálí věrohodosti. Použitý model LCC předpoládá taovýto případ s jedou omiálí srytou proměou Y obsahující tříd. Podle Vermut (2002) lze teto model vímat jao alterativí modelový přístup e lasicým ehierarchicým metodám shluové aalýzy (-průměrů), de jao míru podobosti používáme odhad pravděpodobosti. p 7
ACTA OECONOMICA PRAGENSIA 1/2011 Druhý již výše zmíěý model DFactor může obsahovat více latetích proměých (biárích ebo ordiálích). V tomto čláu jsou prezetováy výsledy zísaé a záladě modelu se čtyřmi biárími fatory, a to z důvodu porovatelosti s ostatími metodami, pro teré byly jao optimálí vyhodocey právě čtyři supiy proměých. 1.3 Kategoriálí aalýza hlavích ompoet Stadardí metoda PCA posuzuje vzájemé lieárí vztahy mezi pozorovaými proměými. Algoritmus je avrže ta, aby prví zjištěá latetí proměá vysvětlovala co ejvíce původí variability. Tato latetí proměá hlaví ompoeta je vyjádřea vztahem Y 1 = ω lt (x μ), (10) de ω l T je ortoormálí charateristicý vetor charateristicého čísla 1 ovariačí matice Σ a μ je vetor středích hodot. Následě algoritmus hledá druhou lieárí ombiaci (druhou hlaví ompoetu), terá vysvětlí co ejvětší část zbývající variability, atd. Kompoety jsou ortogoálí (vzájemě eorelovaé) a jsou vytvářey postupě s lesajícím výzamem důležitostí. Jedotlivé prvy určitého charateristicého vetoru jsou vzájemě porovatelé, ejsou vša porovatelé prvy z růzých charateristicých vetorů. Pro lepší srováí je vhodé použít vetory ompoetích zátěží γ r = ω r ( ) C( X,Y ). (11) r j r,n Tyto vetory jsou zároveň ovariací j-té proměé X j a r-té ormovaé ompoety Y r,n, defiovaé jao T r Y (x μ), (12) r,n ( r) přičemž Y r,n mají jedotové rozptyly. Metoda CATPCA optimálím šálováím trasformuje ategoriálí proměé a proměé vatitativí. Tato optimalizace (vatifiace proměých) vede zísáí optimálích hlavích ompoet. Šály jedotlivých proměých se mohou lišit. Nejsou ladey žádé požadavy a pravděpodobostí rozděleí proměých. Tato aalýza, oproti stadardí PCA, si avíc doáže poradit s elieárími vztahy mezi proměými. Jestliže se všechy proměé řídí multiomicým pravděpodobostím rozděleím, CATPCA je ideticá s vícerozměrou orespodečí aalýzou. Iterativí postup v SPSS (De Leeuw, 1976, IBM SPSS Statistics) lze shrout ásledově. Proces je zaháje ta, že aždému objetu je přiřazeo áhodé číslo (sóre objetu), eí-li defiováo jia. Matici sóre objetů začíme X. Poté je zísáa + vážeá ortoormálí matice X w = WX ta, aby platilo μ T = M * WX = 0 a X T M * WX = w m w I, (13) 8
AOP 19(1), 2011, ISSN 0572-3043 de M * = j M j, přičemž M j je diagoálí matice s prvy m (j)ii, vyjadřující váhy v j jedotlivých proměých pro aždý objet (implicitě v j = 1, poud váha eí specifiováa). Dále W začí diagoálí matici, jejíž prvy w i jsou váhy jedotlivých objetů (implicitě w i = 1 pro evážeé objety), w je součet vah objetů a m w je součet vah proměých. Kvatifiace proměých začíá výpočtem prvotí vetorové zátěže X w + (I M j μμ T W/(μ T M j Wμ)) h j, (14) de h j je vetor idiátorů ategorií pro j-tou proměou. Optimálí vetor ompoetích zátěží + -1 ~ a j = w Y T + D j (15) a vatifiovaé ategorie (hlaví ompoety) původích proměých 1 Y j + = y j + a j + T (16) zísáme metodou ALS (Alteratig Least Squares). Původí odhad je vyjádře jao -1 T + Y = D j G j X w, de G j je idiátorová matice j-té proměé s prvy g (j)ir = 1, poud i-tý objet abývá r-té ategorie pro j-tou proměou, a D je diagoálí matice typu x j j j T ( j je počet ategorií j-té proměé) vážeých sloupcových součtů G j, tj. D j = G j WG j. Dalším roem je optimalizace sóre objetů, tj. X * =(I M * uu T W/(u T M * Wu)) Z, (17) de Z je pomocá matice Σ j M j G j Y j+, ve teré Y j + souhrě začí vatifiace ategorií Y j pro proměé s víceásobým omiálím šálováím a vetor hodot y j a j T pro jedoduché šálováí. Ortoormálí řešeí pro optimalizovaé sóre objetů je alezeo pomocí prorustovsé rotace, viz Cliff (1996). 1.4 Metody MDS a NMMDS Klasicý Torgersoův eulidovsý model (metricá metoda MDS), viz Torgerso (1958), předpoládá shodu eulidovsých vzdáleostí d ii a měr epodobostí δ ii mezi i-tým a i -tým objetem. Z matice D je možé odvodit souřadice proměých v reduovaém prostoru ve dvou rocích. V prvím rou se matice D trasformuje a matici salárích součiů B (trasformace vychází z osiové věty), terou lze maticově zapsat jao 1 1 1 2 B I ii T D 2 I ii T, (18) 1 Hodoty hlavích ompoet pro jedotlivé ategorie původích proměých (cetroid coordiates). 9
ACTA OECONOMICA PRAGENSIA 4/2010 de ozačuje počet objetů, I je jedotová matice typu x a i je sloupcový vetor obsahující jediče. Ve druhém rou je pa matice B rozložea pomocí spetrálího rozladu a matici charateristicých čísel a charateristicých vetorů. Matice souřadic X typu x může být vypočtea ze vztahu X = VL 1/2, (19) de L ozačuje diagoálí matici eulových charateristicých čísel matice B a V matici odpovídajících charateristicých vetorů. NMMDS představuje metodu pro odhad souřadic objetů za méě omezujících podmíe ež Torgersoův metricý model. Rozdíl mezi metricým a emetricým šálováím je ve způsobu zacházeí s epodobostmi. V metricém šálováí se pracuje s jejich číselými hodotami, teré vycházejí z eulidovsého prostoru. V emetricém šálováí se bere v úvahu pouze pořadí hodot. Ozačme symbolem dˆii odhad vzdáleosti mezi objety o souřadicích x ˆij a xˆij v obecém Miowsého prostoru, tj. ii ij ij j1 dˆ x ˆ xˆ. (20) Záladím předpoladem NMMDS je zachováí pořadí vzdáleostí mezi body v ofiguraci δ, tj. ii d ˆ d ˆ... d ˆ, (21) s pořadím epodobostí, tj. ii(1) ii(2) ii( ).... (22) ii(1) ii(2) ii( ) Je zřejmé, že předpolad zachováí pořadí vzdáleostí a epodobostí je mohem mírější ež předpolad shody jejich umericých hodot. Nemetricé MDS ta oceíme hlavě v situacích, dy přímé měřeí objetů eí z jaéhooli důvodu možé. Nemetricý model hledá ofiguraci bodů v prostoru s cílem miimalizace tzv. ztrátové fuce pomocí iterativího algoritmu. Algoritmus začíá určeím rozměrů matice souřadic, poračuje výpočtem tzv. disparit ˆ ii 2, za terými ásleduje výpočet odhadů souřadic x ˆij a vzdáleostí mezi imi d ˆii. Na závěr se staovují hodoty ztrátové fuce. Celý proces očí, je-li dosažeo požadovaé hodoty fuce stress, ebo astaveého počtu iterací. 2 Disparita představuje fučí hodotu vzdáleosti mezi objety, tj. ˆ ˆ ii f dii. Jsou odhadováy ta, aby byly co ejblíže vzdáleostem dˆii a přitom zachovávaly podmíu mootóosti vzhledem původím epodobostem. 10
AOP 19(1), 2011, ISSN 0572-3043 V obecé roviě je defiováa ztrátová fuce podle J. Krusala, terý ji ve svém miimu azval STRESS. Tuto fuci modifioval a zavedl další fuce, teré jsou miimalizováy, apř. STRESS2: STRESS2 i i i i dˆ -ˆ ii ii dˆ -dˆ ii.. 2 2, (23) de ˆd.. odpovídá aritmeticému průměru všech odhadutých vzdáleostí mezi objety v ofiguraci. Více tomuto tématu viz Hebá (2007). 1.5 Fuzzy shluová aalýza Při shluové aalýze jsou objety (v ašem případě proměé) přiřazováy do určitého počtu shluů. Obvyle se postupuje ta, že se objety přiřadí do růzých počtů shluů z určitého itervalu a ásledě se pomocí růzých ritérií vyhodocuje, terý počet je výhodější. Tato čiost většiou spočívá a uživateli, výjimečě je staoveí vhodého počtu shluů součástí metody shluováí. Při fuzzy shluové aalýze se počítají stupě příslušosti u ih jedotlivých objetů jedotlivým shluům. Pro tyto stupě příslušosti platí, že ih ih h1 i1 u 1 pro i 1,..., a u 0 pro h 1,...,, de u ih hodotí zařazeí i-tého objetu h-tému shluu a je počet shluů. Jedou z výhod uvedeého přístupu je, že a záladě stupňů příslušosti lze pro aždý shlu staovit typicý objet (resp. objety). Existuje řada metod pro staoveí hodot u ih. Pro účely tohoto čláu byla použita metoda FANNY, terá je implemetováa v systému S-PLUS. Stupě příslušosti se zísají miimalizací účelové fuce J FANNY 2 2 uihujhdij, (24) i1 j1 h1 2 j1 u 2 ih de d ij je zámá (spočteá) vzdáleost (obvyle eulidovsá) mezi i-tým a j-tým objetem. Záladím oeficietem pro staoveí vhodého počtu shluů v případě fuzzy shluováí, terý je implemetová v současém softwaru (systém S-PLUS), je oefi - ciet rozladu, vyjadřující míru přerytí mezi shluy. V systému S-PLUS je azývá Duův oefi ciet rozladu. Teto idex se počítá podle vzorce 11
ACTA OECONOMICA PRAGENSIA 4/2010 I DUNN 1 i 1 h 1 2 ih u (25) a abývá hodot z itervalu 1/ ;1. Můžeme rozlišit dvě extrémí situace: 1 1 1 1. úplé fuzzy shluováí: všecha uih IDUNN 2, 2. pevé (disjutí) shluováí: pro jedo u ih platí, že u ih = 1, pro všecha ostatí: uih 0 IDUNN 1. Ze zadaého itervalu počtu shluů je vybrá taový, pro terý dosáhl Duův idex ejvyšší hodoty. Protože vša se změou počtu shluů se měí taé iterval, v ěmž se může hodota oeficietu acházet, je lépe porovávat hodoty ormalizovaého oefi cietu rozladu, terý je rověž počítá v systému S-PLUS, a to podle vzorce 1 IDUNN IDUNN 1 IDUNN. (26) 1 1 1 Uvedeou úpravou zísáváme hodoty z itervalu 0;1. Pomocí Duova oeficietu lze taé porovávat růzé metody, a jejichž záladě byly shluy vytvořey. Jao lepší je vyhodocea ta metoda, pro terou dosáhl Duův idex vyšší hodoty. Kromě Duova oeficietu rozladu jsme pro hodoceí zísaých shluů použili obrysový oeficiet, terý souvisí s obrysovým grafem, rověž využitým v tomto čláu. Ja graf, ta oeficiet lze zísat v rámci systému S-PLUS, a to eje pro fuzzy shluovou aalýzu. V obrysovém grafu jsou jedotlivé objety zázorňováy pomocí obdélíů, jejichž šířa je dáa hodotou i. z itervalu 1;1, viz íže. V případě ladé hodoty se obdélí zaresluje vpravo od osy Y, v případě záporé hodoty pa vlevo. Záporými hodotami v případě fuzzy shluové aalýzy mohou být ohodocey objety, pro teré je míra příslušosti přibližě stejá pro dva či více shluů. Je-li je ve shluu pouze jediý objet, pa i = 0, a tudíž se žádý obdélí ezaresluje. Výpočet hodot i se provádí podle vzorce i i i max, i i, (27) de i je průměrá vzdáleost i-tého objetu od ostatích objetů acházejících se ve stejém shluu a i je miimum z průměrých vzdáleostí i-tého objetu od objetů 12
AOP 19(1), 2011, ISSN 0572-3043 aždého dalšího shluu, tj., i dij ( g 1) i mih g dij h, de C g, jcg jch resp. C h, je ozačeí g-tého, resp. h-tého shluu a g, resp. h, je počet objetů v g-tém, resp. h-tém shluu. Obrysový oefi ciet je defiová jao průměrá šířa obdélíů, tj.. Vyšší hodoty tohoto oeficietu vyjadřují lepší rozděleí objetů do shluů. Přílad viz apř. Řezaová (2009). 1.6 Přístup CSPA V praxi jsou řešey případy, dy jsou zísáa růzá přiřazeí objetů do supi (apřílad a záladě růzých supi proměých) a cílem je zísat jede výsledý způsob přiřazeí. Za tímto účelem byly avržey ěteré přístupy, viz Puera (2007). Pro ombiováí přiřazeí proměých do shluů zísaých a záladě růzých metod pro reduci dimezioality jsme využili jede z ich. Předpoládejme, že bylo zísáo r rozladů (způsobů přiřazeí proměých do (q) slupi). Ozačme symbolem u ih stupeň příslušosti i-tého objetu h-tému shluu v q-tém rozladu. Poud by tyto stupě příslušosti byly pouze hodoty 0 a 1, jedalo by se o pevé shluováí. Pro taové případy lze využít apřílad metodu CSPA (Cluster-based Similarity Partitioig Algorithm), terá je založea a matici podobosti A = (1/r)UU T. Pro ombiováí výsledů fuzzy shluové aalýzy byla avržea metoda scspa (soft versio of CSPA), viz Puera (2007). Při í se jao matice podobosti využívá buď matice UU T, ebo matice vzdáleostí vytvořeá a záladě eulidovsých vzdáleostí. Ve druhém zmíěém případě je vzdáleost mezi i-tým a j-tým objetem vypočtea podle vzorce ( q) r 2 ( q) ( q) ij ih jh. (28) q1 h1 d u u Na záladě vytvořeé matice vzdáleostí mohou být objety shluováy do shluů vhodě zvoleou metodou. Při aalýzách pro účely tohoto čláu jsme apliovali teto druhý uvedeý způsob. Pro ombiováí výsledů v rámci ašich aalýz byla horizotálím spojeím jedotlivých výsledých matic stupňů příslušosti proměých do shluů zísaých pro jedotlivé metody vytvořea ová vstupí matice. Na jejím záladě byla provedea fuzzy shluová aalýza s využitím eulidovsých vzdáleostí, tj. vzorec (28). Pomocí í byla zísáa jeda oečá matice stupňů příslušosti, jeda jedozačé přiřazeé proměých do supi vždy a záladě ejvyšší hodoty příslušosti. 13
ACTA OECONOMICA PRAGENSIA 1/2011 2. Apliace a reálá data a vyhodoceí Metody popsaé v seci 1 jsme apliovali a dva reálé datové soubory. Nejprve jsme a záladě průzumu azvaého Výzum percepce policisty (výzum z rou 2006, 356 respodetů, viz Moulisová, 2009) aalyzovali soubor dat 24 proměých charaterizujících typicého policistu 3. Teto soubor byl pracově azvá Policisté. Respodeti vyjadřovali svá hodoceí a pětistupňové šále od 1 (ejpozitivější hodoceí) do 5 (ejvíce egativí hodoceí). Dále jsme a záladě průzumu azvaého Ativí životí styl vysoošoláů (studetů FEL ČVUT v Praze) (průzum z rou 2008, 1453 respodetů, viz Valjet, 2010), dále je Studeti, aalyzovali soubor dat 15 proměých vyjadřujících spoojeost s růzými aspety studetsého života 4. Respodeti vyjadřovali svou spoojeost a sedmistupňové šále od 1 (absolutě espoojeý) do 7 (absolutě spoojeý). V rámci metod FA a CATPCA byly pro oba datové soubory jao optimálí vyhodocey čtyři ompoety (latetí proměé, dimeze). Z důvodu porovatelosti jsme u všech ostatích metod zadávali aalýzu rověž pro čtyři ompoety. Abychom idetifiovali supiy podobých proměých a záladě výsledů (ompoetích zátěží, fatorových zátěží), teré jsme zísali výše zmíěými metodami, iterpretovali jsme tyto výsledy pomocí fuzzy shluové aalýzy implemetovaé v systému S-PLUS, viz Řezaová (2009), Řezaová (2010). Byly porováváy výsledy shluováí do dvou, tří a čtyř shluů. Zísaé shluy byly hodocey pomocí obrysového oeficietu, Duova oeficietu rozladu a jeho ormovaého tvaru. Při aalýze proměých ze souboru Policisté zísala podle všech tří oeficietů ejlepší hodoceí metoda LCC při vytvořeí dvou shluů (hodota obrysového oeficietu 0,47, Duova oeficietu rozladu 0,65 a jeho ormovaého tvaru 0,3). Podle této metody by byly doporučey dva shluy. Podle metod FA a CATPCA bychom mohli doporučit shluy čtyři. Při rozděleí proměých do čtyř shluů se hodoceí metod lišilo v závislosti a použitém hodotícím oeficietu, viz tabula 1. Podle obrysového oeficietu byla ejlépe hodocea metoda CATPCA (metoda ormováí vpricipal), podle Duova oeficietu rozladu (ja záladího, ta ormovaého tvaru) metoda LCC. V pořadí třetí metodou byla fatorová aalýza (metoda rotace varimax). Navržeý postup aalýzy se eosvědčil pro vícerozměré šálováí, de pro čtyři shluy byly míry příslušosti proměých e shluům ve všech případech 0,25, taže hodota Duova oeficietu rozladu vyšla taé 0,25, čemuž odpovídá ulová hodota ormovaého tvaru. 3 Dotazí byl zaměře a zjišťováí toho, ja je vidě typicý policista a jaá je představa o jeho ideálích valitách. Respodeti etvořili homogeí a reprezetativí soubor. Šlo o 286 studetů Policejí aademie ČR, 48 studetů epolicejích typů šol a 22 ostatích osob. V tomto výběrovém souboru bylo 177 mužů a 179 že. Poud jde o vě, pa mediá byl 22 let, průměr 24,8 let, ale rozpětí bylo od 16 do 63 let. 4 Výběrový soubor obsahoval 1074 mužů a 312 že, ve věu od 18 do 30 let s průměrem 22,1 let a mediáem 22 let. Šlo o studety 1. až 6. ročíu magistersého studia (ejvíce z 2. ročíu 650) a dotorady. 14
AOP 19(1), 2011, ISSN 0572-3043 Tabula 1 Hodoceí přiřazeí proměých do 4 shluů zísaých růzými metodami pro soubor Policisté Kritéria pro hodoceí výsledů shluováí Metoda obrysový oeficiet Duův oeficiet rozladu ormovaý Duův oeficiet ALSCAL 0,21 0,25 0,00 DFactor 0,33 0,37 0,16 LCC 0,38 0,41 0,22 FA (metoda rotace: varimax) 0,38 0,33 0,11 CATPCA (metoda ormováí: vpricipal) 0,40 0,39 0,18 NMMDS 0,19 0,25 0,00 PROXSCAL 0,02 0,25 0,00 Kombiace všech metod 0,43 0,46 0,28 Kombiace všech metod vyjma ALSCAL a PROXSCAL 0,43 0,46 0,28 Kombiace metod DFactor a LCC 0,53 0,56 0,41 Kombiace metod DFactor, CATPCA a NNMDS 0,47 0,49 0,33 Prame: Vlastí aalýzy, data viz Moulisová (2009). Tabula 2 Hodoceí přiřazeí proměých do 4 shluů zísaých růzými metodami pro soubor Studeti Kritéria pro hodoceí výsledů shluováí Metoda obrysový oeficiet Duův oeficiet rozladu ormovaý Duův oeficiet ALSCAL 0,32 0,37 0,17 DFactor 0,48 0,52 0,36 LCC 0,45 0,54 0,39 FA (metoda rotace: varimax) 0,49 0,51 0,35 CATPCA (metoda ormováí: vpricipal) 0,46 0,50 0,33 NMMDS 0,33 0,36 0,14 PROXSCAL 0,27 0,29 0,05 Kombiace všech metod 0,46 0,45 0,27 Kombiace všech metod vyjma ALSCAL a PROXSCAL 0,47 0,45 0,27 Kombiace metod DFactor a LCC 0,39 0,43 0,24 Kombiace metod CATPCA a NNMDS 0,60 0,65 0,53 Kombiace všech metod vyjma DFactor a LCC 0,58 0,63 0,50 Kombiace metod DFactor, CATPCA a NNMDS 0,59 0,66 0,54 Prame: Vlastí aalýzy, data viz Moulisová (2009). 15
ACTA OECONOMICA PRAGENSIA 1/2011 Při aalýze proměých ze souboru Studeti byla a záladě všech použitých metod ejlepší hodoceí dosažea při shluováí do čtyř shluů. Podle obrysového oeficietu byla dosažea ejvyšší hodota u fatorové aalýzy, za íž ásledují metody DFactor a CATPCA, podle Duova oeficietu byla ejlépe hodocea metoda LCC, za íž ásleduje metoda DFactor, viz tabula 2. Dále jsme ombiovali výsledy růzých supi metod s cílem zísat přiřazeí proměých do shluů a záladě více metod současě. Za tímto účelem jsme apliovali soft verzi algoritmu CSPA. Spojeím matic stupňů příslušosti zísaých z fuzzy shluové aalýzy použité pro iterpretaci výsledů jedotlivých metod jsme zísali vstupí matici pro ásledou aalýzu opět pomocí fuzzy shluováí. Výsledé shluy jsme rověž hodotili podle již zmíěých oeficietů. Porovávali jsme zejméa výsledá shluováí do čtyř shluů. V tabulách 1 a 2 jsou uvedey ejzajímavější zísaé výsledy. Na záladě souboru Policisté byla vyhodocea jao ejlepší ombiace metod DFactor a LCC (podle všech oeficietů), a záladě souboru Studeti to byla podle obrysového oeficietu ombiace metod CATPCA a NMMDS a podle Duova oeficietu ještě rozšířeí této dvojice o DFactor (rozdíl v hodotách je vša pouhá jeda setia). Přiřazeí proměých do shluů a záladě zmíěých ombiací metod je zázorěo pomocí obrysového grafu a obrázcích 1 (soubor Policisté) a 2 (soubor Studeti). Supiám proměých lze přiřadit určité zobecěí. Z grafů lze taé vyčíst, terá proměá ejvíce daou supiu reprezetuje (odpovídá jí ejvyšší hodota oeficietu příslušosti do daého shluu). Obráze 1 Zařazeí proměých ze souboru Policisté do čtyř shluů a záladě metod DFactor a LCC přátelsý-epřátelsý sromý-důležitý citlivý-ecitlivý ctižádostivý-líý mírumilový-ásilý sympaticý-esympaticý rychlý-pomalý silý-slabý tvrdý-jemý ativí-pasiví lasavý-hrubý statečý-zbabělý estraý-zaujatý vychovaý-evychovaý dbá a záo-edbá a záo fér-efér odpovědý-eodpovědý čestý-ečestý iteligetí-eiteligetí poctivý-epoctivý spravedlivý-espravedlivý pracovitý-epracovitý bystrý-hloupý dobrý-špatý 0.0 0.2 0.4 0.6 0.8 1.0 šířa obdélíů i (průmrá šířa obdélíů : 0.53) Prame: Vlastí aalýzy, data viz Moulisová (2009). 16
AOP 19(1), 2011, ISSN 0572-3043 V souboru Policisté můžeme rozlišit supiu týající se především lidsých vztahů (prví shlu), v ichž je záladí proměá vyjadřuje ázor a to, ja je typicý policista přátelsý. Druhý shlu zachycuje zejméa sílu a ativitu a záladí proměá vyjadřuje ázor a to, ja je typicý policista silý. Třetí supia zachycuje vlastosti související s tím, aby byly dodržováy záoy, a záladí proměá vyjadřuje ázor a to, ja je typicý policista odvážý. Čtvrtý shlu sesupuje morálí vlastosti a záladí proměá vyjadřuje ázor a to, ja je typicý policista férový. Obráze 2 Zařazeí proměých ze souboru Studeti do čtyř shluů a záladě metod CATPCA a NMMDS vzhled tělesá váha tělesá zdatost zdravotí stav společesé uzáí bytová situace přátelé rodiý život celová valita života volý čas fiace spoojeost se sexuálím životem spoojeost s životím parterem studium všeobecě studijí výsledy 0.0 0.2 0.4 0.6 0.8 1.0 (Průměrá šířa obdélíů: 0.6) šířa obdélíů i Prame: Vlastí aalýzy, data viz Valjet (2010). V souboru Studeti můžeme v rámci čtyř shluů rozlišit supiu proměých, teré se týají fyzicého vzhledu a zdraví. Tato supia je reprezetováa proměou týající se spoojeosti se vzhledem. Druhá supia se týá rodiého zázemí, vality života, volého času a fiačí situace. Reprezetuje ji proměá týající se vality bydleí. Třetí supia vyjadřuje spoojeost se sexem a s životím parterem (spoojeosti jsou zřejmě velmi podobě hodocey) a čtvrtá se týá studia a studijích výsledů (i v tomto případě se odpovědi a tyto dvě otázy zřejmě dosti často shodují). Z obrázu 2 je dále zřejmé, že jeda proměá je obtížě zařaditelá do ěterého ze čtyř shluů, i dyž je přiřazea prvímu z ich. Tato proměá vyjadřuje spoojeost s úspěchem a uzáím od ostatích, což se může týat i jiých oblastí, ež je fyzicý vzhled. 17
ACTA OECONOMICA PRAGENSIA 1/2011 Závěr Zísaé pozaty z aalýzy pouze dvou souborů sice elze zobecit, mohou vša být východisem pro aalýzy a směřováí dalšího výzumu. Shreme-li zde uvedeé pozaty, pa iterpretace zísaých hodot ompoetích (fatorových) zátěží, resp. souřadic, pro jedotlivé metody pomocí fuzzy shluové aalýzy se eosvědčila u metod vícerozměrého šálováí, pro teré hodotící oeficiety abývaly ižších hodot ve srováí s ostatími metodami. Jao užitečé se vša uázaly ombiace výsledů metod vícerozměrého šálováí a ěterých jiých metod. Kombiací výsledů metod můžeme docílit vyšších hodot sledovaých oeficietů, emusí tomu vša být vždy. Napřílad u souboru Studeti hodotící oeficiety pro ombiaci metod DFactor a LCC dosáhly ižších hodot, ež vyšly hodoty oeficietů hodotící výsledy zísaé pouze pomocí samostatých metod. Z růzorodosti výsledů je zřejmé, že při zpracováí dat z průzumů elze spoléhat pouze výsledy jedé metody. Aalýza pomocí více metod by měla být apliováa zvláště v případě, dy u ěteré z metod ejsou splěy předpolady pro její použití, ja je tomu u fatorové aalýzy, terá je určea pro vatitativí proměé. V dalším bádáí bychom se chtěli zaměřit a vliv použitých měr závislostí a výsledé zařazeí proměých do supi, a aalýzu datových souborů s biárími a omiálími proměými a s proměými růzých typů. Jao další zajímavý směr výzumu se jeví zoumáí odlehlých proměých, teré v rámci fuzzy shluové aalýzy ejsou idetifiováy, tj. v úvahu připadá využití ovějších metod shluováí. Literatura BARTHOLOMEW, D. J.; STEELE, F. et al. 2002. The Aalysis ad Iterpretatio of Multivariate Data for Social Scietists. Boca Rato : Chapma & Hall/CRC, 2002. ISBN 1-58488-295 6. CLIFF, N. 1996. Orthogoal rotatio to cogruece. Psychometria. 1996, vol. 31, s. 33 42. DE LEEUW, J.; YOUNG, F. W.; TAKANE, Y. 1976. Additive structure i qualitative data: A alteratig least squares method with optimal scalig features. Psychometria. 1976, vol. 41, s. 471 503. HÄRDLE, W.; SIMAR, L. 2007. Applied Multivariate Statistical Aalysis (Secod editio). Berli; Heidelberg; New Yor : Spriger, 2007. ISBN 978-3-540-72243-4. HEBÁK, P.; HUSTOPECKÝ, J. et al. 2007. Vícerozměré statisticé metody [3]. 2. vyd. Praha : Iformatorium, 2007. ISBN 978-80-7333-001-9. IBM SPSS Statistics, Help, Algorithms [olie]. O-lie mauál. [cit. 2011-01-16]. www.127.0.0.1:4004/ help/idex.jsp?topic=/com.ibm.spss.statistics.help/alg_itroductio.htm. KAISER, H. F. 1985. The varimax criterio for aalytic rotatio i factor aalysis. Psychometria. 1985, vol. 23, s. 187 200. MARDIA, K. V.; KENT, J. T.; BIBBY, J. M. 1979. Multivariate Aalysis. Duluth, Lodo : Academic Press, 1979. ISBN 0-12-471252-5. MOULISOVÁ M. 2009. Výzum percepce policisty. Krimialistia. 2009, roč. 42, č. 1, s. 56 71. PUNERA, K.; GHOSH, J. 2007. Soft cluster esembles. I OLIVEIRA, J. V.; PEDRYCZ, W. (eds.). Advaces i Fuzzy Clusterig ad Its Applicatios. Chichester : Joh Wiley & Sos, 2007, s. 69 91. ISBN 978-0-470-02760-8. ŘEZANKOVÁ, H.; HÚSEK, D.; SNÁŠEL, V. 2009. Shluová aalýza dat. 2. vyd. Praha : Professioal Publishig, 2009. ISBN 978-80-86946-26-9. 18
AOP 19(1), 2011, ISSN 0572-3043 ŘEZANKOVÁ, H.; HÚSEK, D.; RYŠÁNKOVÁ, M. 2010. Groupig ordial variables by usig fuzzy cluster aalysis. I SMTDA 2010 Stochastic Modelig Techiques ad Data Aalysis. Chaia : Swets, 2010, s. 83. TORGERSON, W. S. 1958. Theory ad Methods of Scalig. New Yor : Joh Wiley & Sos, 1958. VALJENT, Z. 2010. Ativí životí styl vysoošoláů (studetů FEL ČVUT v Praze). Praha : FEL ČVUT, 2010. ISBN 978-80-01-04669-2. VERMUNT, J. K.; MAGIDSON, J. 2002. Latet class cluster aalysis. I HAGENAARS, J. A.; McCUTCHEON, A. L. (eds.). Applied Latet Class Aalysis. Cambridge : Cambridge Uiversity Press, 2002, s. 89 106. ISBN 0-521-59451-0. VERMUNT, J. K.; MAGIDSON, J. 2005. Techical Guide for Latet GOLD 4.0: Basic ad Advaced [olie]. Statistical Iovatios Ic., Belmot Massachusetts, 2005. [cit. 2011-01-16]. www.statisticaliovatios.com/products/lgtechical.pdf. COMPARISON OF DIMENSIONALITY REDUCTION METHODS APPLIED TO ORDINAL VARIABLES Abstract: Questioaire survey data are usually characterized by a great amout of ordial variables. For multivariate aalysis, it is suitable to reduce tas dimesioality. The aim of this paper is a compariso of the results obtaied by the aalysis of data fi les with ordial variables usig selected methods for dimesioality reductio. The results are i the form of idividual compoet values (e.g. factor loadigs). For better iterpretatio ad comparability, these compoet values were cosequetly aalyzed by fuzzy clusterig. O the basis of the obtaied clusters of variables, we determied the optimal umber of dimesios. We applied silhouette ad Du s partitio coeffi ciets. Furthermore, we tried to merge the results received by idividual methods o the basis of the scspa techique (soft versio of cluster-based similarity partitioig algorithm). We cosidered groups of differet methods ad searched the best solutio. The problems are illustrated by meas of two real data fi les obtaied from questioaire surveys. We used SPSS, STATISTICA, Latet GOLD ad S-PLUS systems. Keywords: categorical pricipal compoet aalysis, multidimesioal scalig, latet class cluster models, discrete factor aalysis, fuzzy cluster aalysis JEL Classificatio: C38 19