UNIVERZITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY BAKALÁŘSKÁ PRÁCE Kmpziční analýza vah ve vícekriteriálním hdncení variant Veducí bakalářské práce: dc. RNDr. Karel Hrn, Ph.D. Vypracval: Martin Trefil Studijní prgram: B1103 Aplikvaná matematika Studijní br: Matematika eknmie se zaměřením na bankvnictví Frma studia: Prezenční Rk devzdání: 2015
BIBLIOGRAFICKÁ IDENTIFIKACE Autr: Martin Trefil Název práce: Kmpziční analýza vah ve vícekriteriálním hdncení variant Typ práce: Bakalářská práce Pracviště: Katedra matematické analýzy a aplikací matematiky Veducí práce: dc. RNDr. Karel Hrn, Ph.D. Rk bhajby práce: 2015 Abstrakt: Lgrati metdika kmpzičních dat je velmi mladá blast statistiky. Cílem tét bakalářské práce je její aplikace ve vícekriteriálním hdncení variant při statistickém zpracvání subru vektrů vah kritérií. Práce tak bsahuje teretické kapitly kritériích hdncení a metdách stanvení jejich vah a kmpzičních datech a jejich specifické gemetrii. Následně jsu tyt infrmace využity v praktickém příkladu při analýze vícekriteriálních vektrů vah získaných dvěma metdami d subru hdntitelů. Klíčvá slva: Vícekriteriální hdncení variant, váha kritéria, lgrati transfrmace, shlukvá analýza, biplt Pčet stran: 54 Pčet přílh: 8 Jazyk: Český 2
BIBLIOGRAPHICAL IDENTIFICATION Authr: Martin Trefil Title: Cmpsitinal analysis f weights in multi-criteria decisin making Type f thesis: Bachelr s Department: Department f Mathematical Analysis and Applicatin f Mathematics Supervisr: dc. RNDr. Karel Hrn, Ph.D. The year f presentatin: 2015 Abstract: Lgrati methdlgy f cmpsitinal data is a very yung field f statistics. The aim f this bachelr thesis is its applicatin t multi-criteria decisin making in statistical analysis f vectrs f criteria weights. The thesis cntains theretical sectins n evaluatin f criteria, n methds f determining their weights and als n cmpsitinal data and their specific gemetry. These data are subsequently used in a practical example, where multi-criteria vectrs f weights btained by tw methds frm a sample f evaluatrs are analyzed. Key wrds: Multi-criteria decisin making, weight f criterin, lgrati transfrmatins, cluster analysis, biplt Number f pages: 54 Number f appendices: 8 Language: Czech 3
Prhlášení Prhlašuji, že jsem bakalářsku práci vytvřil samstatně pd vedením pana dc. RNDr. Karla Hrna, Ph.D. s pužitím uvedených literárních zdrjů. V Olmuci dne 30. března 2015 4
Obsah Úvd 7 1 Kritéria hdncení a jejich váhy 8 1.1 Úlha vícekriteriálníh rzhdvání a hdncení.......... 8 1.2 Kritéria hdncení.......................... 9 1.3 Váhy a metdy jejich stanvení................... 11 1.3.1 Saatyh metda........................ 12 1.3.2 Pstupná Metfesselva alkace................ 14 2 Kmpziční data 15 2.1 Principy práce s kmpzičními daty................. 16 2.2 Aitchisnva gemetrie........................ 17 2.3 Lgrati transfrmace........................ 19 2.3.1 Clr transfrmace....................... 19 2.4 Ppisná statistika........................... 21 2.5 Kmpziční biplt.......................... 22 2.5.1 Knstrukce bipltu...................... 23 2.5.2 Interpretace kmpzičníh bipltu.............. 24 2.6 Hierarchické shlukvání........................ 26 3 Praktický příklad 29 3.1 Dtazník................................ 29 3.2 Zpracvání datvéh subru.................... 30 3.2.1 Datvý subr získaný Metfesselvu alkací........ 30 3.2.2 Datvý subr získaný Saatyh metdu.......... 34 3.3 Prvnání výstupů pužitých metd................ 38 Závěr 39 Literatura 40 Přílhy 41 Přílha A: Dtazník............................ 41 Přílha B: Metfesselva alkace - Půvdní datvý subr........ 44 Přílha C: Metfesselva alkace - Kmpziční číselné charakteristiky.. 46 Přílha D: Metfesselva alkace - Clr transfrmvaný datvý subr.. 47 Přílha E: Saatyh metda - Půvdní datvý subr.......... 49 Přílha F: Saatyh metda - Kmpziční číselné charakteristiky.... 51 Přílha G: Saatyh metda - Clr transfrmvaný datvý subr.... 52 Přílha H: CD-ROM............................ 54 5
Pděkvání Děkuji veducímu bakalářské práce panu dc. RNDr. Karlu Hrnvi, Ph.D. za vstřícnst, cenné rady a za nespčet hdin, které mi věnval při knzultacích. Dále děkuji své rdině, jež mě během studia pdprvala, a Olmuci, která mi byla druhým dmvem. 6
Úvd Tématem tét práce je kmpziční analýza vah ve vícekriteriálním hdncení variant. Přestže se s vícekriteriálním rzhdváním a hdncením setkáváme dnes a denně, tak většina z nás tét blasti nemá pnětí. Já jsem nebyl výjimku, prt jsem si zvlil tt téma, abych ní, jakž i suvisející prblematice kmpzičních dat, získal vědmsti a pkusil se je předat c nejstručněji čtenářům tét práce. Metdy vícekriteriálníh hdncení variant nám služí k výběru ptimální varianty (např. autmbilu, nemvitsti neb také nvéh zaměstnance) vzhledem k daným kritériím. Přitm příslušné vektry vah kritérií bsahují relevantní infrmaci především v pdílech mezi jejich slžkami. Za cíl jsem si stanvil pužití lgrati analýzy kmpzičních dat při statistickém zpracvání vícekriteriálních vektrů vah, které jsem získal d skupiny respndentů dvěma metdami, knkrétně Metfesselvu alkací a Saatyh metdu. Na základě výstupů jejich analýz prvedu srvnání, která lépe reflektuje předpklad, že mužské phlaví při výběru autmbilu preferuje technické vlastnsti před estetickými, přičemž u ženskéh phlaví t bývá napak. Předlžená bakalářská práce se tak dělí na dvě hlavní části, tereticku a prakticku. V první teretické kapitle přiblížím úlhu vícekriteriálníh hdncení, pjem kritéria hdncení včetně jejich vlastnstí a metd stanvení vah. Ve druhé kapitle se zabývám kmpzičními daty, jejich specificku gemetrií, vybranu lg-rati transfrmací a nástrji, které jsu ptřebné k jejich průzkumvé statistické analýze (biplt, hierarchické shlukvání). Závěrečnu kapitlu práce věnuji praktickému příkladu, ve kterém všechny předchzí teretické pznatky aplikuji na reálná data, která jsem získal z mnu vytvřenéh dtazníku. Tat data zpracuji ve statistickém sftwaru R [11] a ppíši jedntlivé numerické a grafické výstupy. Na jejich základě určím metdu, která lépe reflektuje mje předpklady preferencích jedntlivých phlaví při výběru autmbilu. Práci jsem vypracval pmcí typgrafickéh sftwaru TEX [10]. 7
1. Kritéria hdncení a jejich váhy Při tvrbě tét kapitly jsme čerpali infrmace uvedené v [8], [9]. 1.1. Úlha vícekriteriálníh rzhdvání a hdncení Lhal by ten, kd tvrdí, že se nikdy s těmit úlhami nesetkal, prtže každý se v nějaké situaci musel rzhdnut. Tyt úlhy jsu sučástí našich živtů, skrývají se v mnha činnstech, aniž bychm si t uvědmvali. Například je t klasický rzhdvací prblém při výběru televizru, při kupi nemvitsti neb autmbilu. A právě výběr autmbilu bude hrát rli v praktické části tét práce. Na první phled si jistě řeknete, že na tm není nic slžitéh. Avšak při pdrbnějším průzkumu zjistíme, že nalézt ideální řešení není nic triviálníh. Má t své pdstatnění. Zřídkakdy ttiž existuje varianta nejlepší ve všech aspektech. V případě televizru lze hvřit širkúhlé SMART TV 1 nejvyšší kvality dstupné za nejnižší cenu na trhu televizrů. Tat varianta by se jistě všem zamluvala, všem v dnešním tržním světě se t zdá býti nereálné. Skutečně je tmu tak. Drtivá většina takvýcht prblémů nenabízí ptimální řešení (variantu). A prt musíme najít kmprmisní řešení, které je dle některých kritérií hrší, ale v námi pžadvaných kritériích dsahuje uspkjivých výsledků. Úlhu vícekriteriálníh rzhdvání lze zjedndušeně definvat jak úlhu, kdy je dána knečná mnžina n variant, které hdntíme dle m kritérií. Naším cílem je naleznut variantu, která je dle všech kritérií hdncena c nejlépe. Tut variantu pvažujeme za ptimální, řekněme alespň kmprmisní. Následně též můžeme varianty seřadit d nejlepší p nejhrší na základě jejich celkvéh psuzení vzhledem ke kritériím. V našem případě se nebudeme věnvat samtnému výběru ptimální varianty, zaměříme se puze na kritéria hdncení, jejichž váhy budeme následně dále analyzvat. 1 Televizry vybavené peračním systémem, přístupem na internet a dalšími technlgiemi. 8
1.2. Kritéria hdncení Kritéria jsu charakteristiky variant, dle kterých tyt varianty psuzujeme. Při tvrbě subru kritérií je třeba dbát na něklik zásad: 1. Úplnst subru kritérií celkvý cíl hdncení by měl být zcela vyjádřen kritérii, avšak sučasně se v kritériích nesmějí vyskytvat nadbytečná kritéria, jejichž hdnty je mžné dvdit z hdnt jiných kritérií tht subru. 2. Minimální pčet kritérií stjí d jisté míry v pzici k pžadvané úplnsti subru kritérií. 3. Neredundance kritérií je žáducí, aby kritéria byla nezávislá, vzájemná závislst kritérií ttiž vždy kmplikuje a ztěžuje vztah mezi dílčími hdnceními a celkvým hdncením variant. Více nezávislsti kritérií pjednává [8]. 4. Měřitelnst kritérií kritéria by měla být měřitelná, abychm byli schpni, ať už jakýmkliv způsbem (pmcí rdinální či kardinální stupnice), vyjádřit hdncení variant vzhledem k těmt kritériím. 5. Expertní pmc d subru kritérií se zahrnují i takvé vlastnsti variant, při stanvení jejichž hdnt je zaptřebí expertních znalstí. K tvrbě subru kritérií, který splňuje výše dané pžadavky, pužijeme metdu strmu dílčích cílů (br. 1). Nejvyšší úrveň, zvaná křen strmu, je celkvý cíl hdncení, který je v další úrvni rzdělen na dílčí cíle (C 0, C 1, C 2 ), jež jsu dále rzděleny d dílčích cílů (C 11, C 12, C 21, C 22 ). Takt pkračujeme, dkud nedspějeme k přím měřitelným charakteristikám variant, tedy ke kncům větví, které představují jedntlivá kritéria hdncení (K 1, K 2, K 3, K 4, K 5, K 6 ). 9
Celkvý cíl hdncení C 0 C 1 C 2 K 1 C 11 C 12 C 21 C 22 C 111 C 112 K 4 K 5 K 6 K 2 K 3 Obrázek 1: Strm dílčích cílů. Kritéria lze dělit pdle jejich charakteru na kvalitativní, která vyjadřují rzdílnu kvalitu určité vlastnsti u jedntlivých variant a jejichž hdnty jsu bvykle zadány slvně, a na kvantitativní, která vyjadřují kvantitu určité vlastnsti a jejichž hdnty jsu zadávány číselně. Dále se dělí pdle způsbu vyjádření preferencí, které tat kritéria generují na mnžině variant, na kritéria rdinální, definující na mnžině variant preferenční relaci, a kardinální, která udávají předpklady pr kvantitativní prvnání rzdílů v hdncení variant. 10
1.3. Váhy a metdy jejich stanvení Váhy bývají vymezeny p matematické stránce velmi becně. Váhami kritérií K 1, K 2,..., K m se rzumí nezáprná reálná čísla v 1, v 2,..., v m, která vyjadřují dlišnu významnst jedntlivých kritérií vzhledem k celkvému hdncení variant. Jinak řečen jedntlivé váhy představují kvantitativně vyjádřené relativní příspěvky na celkvém hdncení. Většina metd pracuje s nrmvanými váhami, tj. s váhami, pr které platí m v j = 1, v j 0. (1.1) j=1 Pkud jsu stanveny nenrmvané váhy w j, w j 0, j = 1, 2,..., m, pak nrmvané váhy v j se z nich vypčítají dle vztahu v j = w j m k=1 w. (1.2) k Základní vlastnstí, kteru musí mnžina vah splňvat vzhledem k preferencím na mnžině kritérií, je následující vlastnst: j, k {1, 2,..., m} : v j v k K j je významnější neb stejně významné jak K k. Váhy lze stanvit něklika metdami: metdu párvéh srvnávání kritérií, Saatyh metdu, Kmpenzační metdu, přímu Metfesselvu alkací, pstupnu Metfesselvu alkací, atd. Knkrétnější interpretace vah je vždy rzdílná v závislsti na pužité metdě jejich stanvení. V jednduchých metdách je pstačující výše uvedené rdinální pjetí vah, v Saatyh metdě váhy vyjadřují pměry významnsti kritérií a v Metfesselvě alkaci pak mají pdbu prcentuálníh pdílu dílčíh cíle dpvídajícíh danému kritériu na celkvém cíli hdncení. Jedntlivé váhy tak vyjadřují kvantitativně vyjádřené relativní příspěvky na celkvém hdncení. V tét práci se pdrbněji zmíníme Saatyh metdě a pstupné Metfesselvě alkaci. 11
1.3.1. Saatyh metda Při jejím pužití zadáváme matici intenzit preferencí S. Její prvky s i,j vždy vyjadřují námi stanvenu relativní významnst i-téh kritéria vzhledem k j-tému (tzn. vyjadřují, klikrát je i-té kritérium významnější než j-té). Na diagnále leží samé 1. S K 1 K 2 K 3 K 4 K 5 K 6 K 1 1 K 2 1 K 3 1 K 4 1 K 5 1 K 6 1 Při zadávání hdnt prvků matice S pužíváme základní pětibdvu stupnici intenzit preferencí, jejíž sučástí jsu i příslušné jazykvé deskriptry. 1 jsu-li bě kritéria stejně významná, 3 je-li i-té kritérium slabě významnější než j-té, s i,j = 5 je-li i-té kritérium dsti významnější než j-té, 7 je-li i-té kritérium prkazatelně významnější než j-té, 9 je-li i-té kritérium abslutně významnější než j-té. Napak, pkud je i-té kritérium méně významné než j-té, píšeme s i,j = 1 s j,i. (1.3) Nenrmvané váhy získáme jak vlastní vektr matice S dpvídajícímu jejímu největšímu vlastnímu číslu λ max, avšak pr dsažení relevantníh výsledku musí být matice S knzistentní, tedy v ideálním případě by měl platit, že i, j, k {1, 2,..., m} : s i,k = s i,j s j,k. Prt se zavedl tzv. keficient neknzistence CI. CI = λ max m m 1, (1.4) 12
kde m je pčet kritérií. Čím blíže je tent keficient k nule, tím je matice S knzistentnější. Jelikž neznáme přesnu hranici, kdy je keficient neknzistence ještě blízký nule a kdy už ne, tak zavádíme tzv. pdílvý keficient neknzistence CR. Ten vypčítáme dle vztahu CR = CI RI(m), (1.5) kde RI(m) je tzv. náhdný keficient neknzistence. Keficienty RI(m) závisí na řádu matice S (pčet kritérií), prt byla vytvřena tabulka těcht keficientů. m 3 4 5 6 7 8 9 RI(m) 0,525 0,882 1,115 1,252 1,341 1,404 1,452 m 10 11 12 13 14 15 16 RI(m) 1,484 1,513 1,535 1,555 1,57 1,583 1,595 Tabulka 1: Hdnty keficientů RI(m) Keficient CR nabývá hdnt z intervalu 0, 1. Nula vyjadřuje úplnu knzistenci, jednička abslutní náhdnst prvků v matici S (neknzistenci). Matici S pvažujeme za knzistentní tehdy, když je keficient CR 0,1. V případě neknzistence je mžné vytvřit nvu matici S tak, že s ij = w i w j, kde w i, w j jsu prvky vlastníh vektru z půvdní matice S. Pté vypčítáme nvé maximální vlastní čísl matice S a příslušný vlastní vektr. 13
1.3.2. Pstupná Metfesselva alkace V tét metdě využijeme strm dílčích cílů. Naším úklem je přiřadit váhu každému dílčímu cíli, přičemž se vždy ptáme, jaký pdíl má dílčí cíl na cíli ve vyšší úrvni. V každém větvení na libvlné úrvni musí být sučet vah rven 1 a žádná váha nesmí být nulvá, jelikž by pak všechna kritéria veducí přes tut váhu byla nepužitelná (nulvá). Takt pstupujeme d té dby, než djdeme k jedntlivým kritériím hdncení. Váhu kritéria hdncení dstaneme tak, že vynásbíme váhy, které se nacházejí na větvích veducích k tmut kritériu. Situaci budeme ilustrvat na knkrétním příkladu stanvení vah při výběru autmbilu. Váhy jedntlivých kritérií z brázku 2 jsu: v K1 = v 11 v 1, v K2 = v 12 v 1, v K3 = v 2, v K4 = v 311 v 31 v 3, v K5 = v 312 v 31 v 3, v K6 = v 32 v 3. Obrázek 2: Schéma pstupné Metfesselvy alkace. 14
2. Kmpziční data V tét kapitle ppíšeme, c jsu kmpziční data vůbec zač a uvedeme jejich základní vlastnsti. Vycházíme z literatury [1], [2], [4], [7]. Tat blast matematiky je pměrně mladá, přestže se s těmit daty setkáváme v praxi velmi čast. Za zakladatele tét blasti je pvažván sktský statistik Jhn Aitchisn, jelikž v 80. letech 20. stletí právě n přišel s mžnstí statisticky zpracvat kmpziční data (kmpzice) pmcí tzv. lgrati transfrmací. Kmpziční data jsu vícerzměrná data, jejichž nebvyklst tkví v tm, že jedinu relevantní infrmaci v nich pskytují pdíly jedntlivých slžek na celku. Slžky tak typicky mhu být vyjádřeny v prprcích či v prcentech. Nejčastěji se s kmpzičními daty můžeme setkat v přírdních vědách jak je bilgie, gelgie, gegrafie, chemie a dále v archelgii, medicíně, sci-eknmické blasti a jiných. Pr názrnější představu se jedná např. kncentrace chemických prvků v hrnině, pměr nárdnstních menšin v ČR, pdíl každdenních výdajů na rzpčtu dmácnsti atd. Definice 2.1. Slupcvý vektr x = (x 1, x 2,..., x D ) T se nazývá D-slžkvá kmpzice, jsu-li všechny jeh slžky x i > 0, i = 1,..., D a nesu puze relativní infrmaci. Kmpzice většinu reprezentujeme pmcí knstantníh sučtu slžek κ. Čast se κ = 1 (prprce) neb κ = 100 (prcenta), všem záleží na typu úlhy. Někdy knstantní sučet ttiž určit nejde, jelikž slžky kmpzice jsu v jedntkách kncentrace (např. mg/cm 3 ) apd. Reprezentace kmpzičních dat pmcí libvlnéh sučtu slžek κ přitm nemá na jejich zpracvání pmcí lgrati transfrmací vliv. Definice 2.2. Výběrvý prstr kmpzic se nazývá simplex definvaný jak D S D = {x = (x 1, x 2,..., x D ) T x i > 0, i = 1, 2,..., D; x i = κ}, (2.1) kde κ je libvlná pevně zvlená knstanta. Simplex je (D 1) - rzměrný pdprstr R D. 15 i=1
Pr frmální vyjádření kmpzic jak dat s knstantním sučtem slžek služí následující definice. Definice 2.3. Pr každý D-slžkvý kladný vektr x = (x 1, x 2,..., x D ) T R D je uzávěr kmpzice x definván jak C(x) = ( κ x 1 D i=1 x, i κ x 2 D i=1 x,, i κ x D D i=1 x i ). (2.2) Tat perace nám umžní bez ztráty infrmace převést sučet slžek kmpzice na zvlenu knstantu κ. Definice 2.4. Nechť je dána kmpzice x. Užitím perace uzávěru na pdvektr (x i1, x i2,..., x ip ) T vektru x získáme pdkmpzici x p p slžkách, (p < D). Indexy i 1, i 2,..., i p, 1 i 1 < < i s D, značují ty slžky, které jsu zahrnuty d pdkmpzice. Nemusí t nutně být prvních p slžek. 2.1. Principy práce s kmpzičními daty Abychm mhli aplikvat na kmpziční data standardní statistické metdy, je zaptřebí, aby tyt metdy vyhvvaly třem pdmínkám. Dle [1], [7] je t škálvá neměnnst, neměnnst při změně přadí a sudržnst pdkmpzice. Škálvá neměnnst Infrmace v kmpzici nezávisí na jedntkách, ve kterých je kmpzice vyjádřena, jelikž kmpziční data nesu puze relativní infrmaci. Definice 2.5. Dva vektry x, y s D kladnými reálnými slžkami jsu kmpzičně ekvivalentní, jestliže existuje knstanta λ R takvá, že x = λ y a tedy C(x) = C(y). 16
Přitm nám záleží na tm, abychm dstali ttžné výsledky statistické analýzy nezávisle na knstantě λ. Definice 2.6. Funkce f( ) je škálvě neměnná, jestliže pr každu knstantu λ R a pr každu kmpzici x S D funkce splňuje rvnst f(λx) = f(x). T znamená, že získáme stejné výsledky pr každý kmpzičně ekvivalentní vektr. Neměnnst při změně přadí Permutace slžek kmpzice nezmění infrmaci bsaženu v kmpzičním vektru. Následně, funkce (statistická metda) je invariantní vůči změně přadí, pskytuje-li stejné výsledky, i když změníme uspřádání jedntlivých slžek v kmpzici. Sudržnst pdkmpzice Infrmace zprstředkvaná kmpzicí D slžkách by neměla být ve spru s výsledky bdrženými z pdkmpzice p slžkách, p < D. Speciálně vzdálenst, kteru naměříme mezi dvěmi kmpzicemi, musí být větší neb rvna vzdálensti, kteru naměříme mezi jakýmikliv jejich pdkmpzicemi. Tat vlastnst se nazývá pdkmpziční dminance. 2.2. Aitchisnva gemetrie Práce s kmpzičními daty je mnhem slžitější než s klasickým datvým subrem využívajícím principy euklidvské gemetrie. Prt se zavádí Aitchisnva gemetrie s takvými peracemi, aby pskytvaly smysluplné infrmace kmpzicích při respektvání principů práce s kmpzičními daty. Mezi základní perace patří perturbace a mcninná transfrmace, které indukují vektrvý prstr na simplexu a vyžadují peraci uzávěru, která je uvedena v definici 2.3. 17
Perturbace je analgií pr peraci sčítání v reálném prstru, mcninná transfrmace je analgií pr násbení skalárem. Definice 2.7. Perturbace kmpzice x S D kmpzicí y S D je kmpzice x y = C(x 1 y 1, x 2 y 2,..., x D y D ) T. (2.3) Definice 2.8. Mcninná transfrmace kmpzice x S D knstantu α R je dána vztahem α x = C(x α 1, x α 2,..., x α D) T. (2.4) Takt bdržíme vektrvý prstr (S D,, ), který má následující vlastnsti: Vlastnst 2.2.1 (S D, ) je kmutativní grupa, tedy pr x, y, z S D platí kmutativita: x y = y x; asciativita: (x y) z = x (y z); existence neutrálníh prvku: n = C(1, 1,..., 1) T = ( 1 D, 1 D,..., 1 D )T ; existence inverzníh prvku: x 1 = C(x 1 1, x 1 2,..., x 1 D )T, kde x x 1 = n. Vlastnst 2.2.2 platí V případě mcninné transfrmace pr x, y S D a α, β R asciativita: (α β) x = α (β x); distributivita: α (x y) = (α x) (α y); (αβ) x = (α x) (β x); existence neutrálníh prvku: 1 x = x. Vektrvý prstr dplníme peracemi skalární sučin, nrma a vzdálenst mezi kmpzicemi, čímž bdržíme euklidvský vektrvý prstr. Definice 2.9. Aitchisnův skalární sučin kmpzic x,y S D je definván jak x, y a = 1 2D D i=1 D j=1 ln x i x j ln y i y j. (2.5) 18
Díky vlastnstem lgaritmu pdílu lze skalární sučin zapsat také jak x, y a = 1 D D 1 D i=1 j=i1 ln x i x j ln y i y j. Definice 2.10. Aitchisnva nrma kmpzice x S D je definvána vztahem x a = 1 2D D i=1 D j=1 ( ln x i x j ) 2 = x, x a. (2.6) Definice 2.11. Aitchisnva vzdálenst mezi x a y S D je dána jak kde x y = x y 1. d a (x, y) = x y a = 1 2D 2.3. Lgrati transfrmace D i=1 D j=1 ( ln x i x j ln y i y j ) 2, (2.7) Z předchzí části již víme, že ve standardním euklidvském prstru nelze s kmpzičními daty pracvat kvůli jejich dlišné gemetrii. A prt byla zavedena v kapitle 2.2 Aitchisnva gemetrie. Abychm mhli pužít běžné statistické metdy pr analýzu kmpzic, pužijeme tzv. lgrati transfrmace. Aditivní lgrati (alr) transfrmace nezachvává metrické vlastnsti dat (není izmetrická), a prt tut transfrmaci v další části práce nepužijeme a nebudeme se jí dále zabývat. Centrvaná lgrati (clr) transfrmace tut vlastnst (izmetrii) má, vyhvuje typu tét práce, prt ji pdrbněji ppíšeme. Vlastnsti předchzích transfrmací vedly k myšlence zavedení třetí transfrmace, izmetrické lgrati (ilr) transfrmace, která je izmetrií mezi S D a R D 1. Ilr transfrmaci taktéž jak alr transfrmaci nevyužijeme, prt ji nebudeme dále ppisvat. 2.3.1. Clr transfrmace V praktickém příkladu nám pstačí puze tat transfrmace, která zachvává metrické vzdálensti dat. Kmpziční data jsu v S D frmulvány pmcí 19
kannické báze {e 1, e 2,..., e D } v R D. Tudíž můžeme každý vektr vyjádřit jak x = x 1 (1, 0,..., 0) T x 2 (0, 1,..., 0) T x D (0, 0,..., 1) T = D x i e i. i=1 Výše zmíněná kannická báze bhužel není generujícím systémem ani bází vzhledem k Aitchisnvě gemetrii na S D. Míst ní tak pužijeme následující generující systém w i = C(exp(e i )) T = C(1, 1,..., e,..., 1) T, i = 1, 2,..., D. Definice 2.12. Nechť je dána kmpzice x S D. Clr keficienty jsu slžky vektru ξ = (ξ 1, ξ 2,..., ξ D ) T = clr(x), který splňuje D x = clr 1 (ξ) = C(exp(ξ)) T, ξ i = 0, (2.8) i=1 i-tý clr keficient je ve tvaru ξ i = ln x i g(x). (2.9) Kmpzici x S D lze tak vyjádřit vztahem x = D ln x i g(x) w i = ln x 1 g(x) (e, 1,..., 1)T ln x D g(x) (1, 1,..., e)t, (2.10) i=1 D ( kde g(x) = D i=1 x ) 1 i = exp D D i=1 ln x i je gemetrický průměr slžek kmpzice x. Centrvaná lgrati (clr) transfrmace je vyjádřena pravu stranu tét rvnsti a lze ji zapsat i p slžkách jak vektry clr(x) = ( ln x 1 g(x), ln x 2 g(x),..., ln x ) T D = ξ. (2.11) g(x) Inverze prdukující keficienty kannické báze reálnéh prstru následně vypadá takt clr 1 (ξ) = C(exp(ξ 1 ), exp(ξ 2 ),..., exp(ξ D )) T = x. (2.12) 20
Neměli bychm vynechat převd perací a metriky ze simplexu d reálnéh prstru. K tmu si nejdříve značíme euklidvsku vzdálenst, nrmu a skalární sučin v R D pmcí d(, ) e, e a, e. Věta 2.1. Nechť jsu dány kmpzice x 1, x 2 S D a reálné knstanty α, β, pak platí clr(α x 1 β x 2 ) = α clr(x 1 ) β clr(x 2 ); x 1, x 2 a = clr(x 1 ), clr(x 2 ) e ; x 1 a = clr(x 1 ) e ; d a (x 1, x 2 ) = d e (clr(x 1 ), clr(x 2 )) e. (2.13) Clr transfrmace umžňuje interpretaci jedntlivých keficientů jak prměnných vysvětlujících všechnu relativní infrmaci dané slžce kmpzice, phybujících se v čitateli příslušnéh keficientu. T zapřičiňuje mžnst pužití jmen pr jedntlivé prměnné dpvídající názvům půvdních slžek kmpzice v ppisu výstupů dané statistické analýzy. Jak se zmíníme pzději, tut transfrmaci využijeme i při knstrukci bipltu. Nevýhdu clr transfrmace je, že výsledné prměnné jsu klineární, jelikž platí rvnst D i=1 ξ i = 0. T je důvd, prč clr transfrmvané kmpzice nelze zpracvat metdami, které jsu závislé na plné hdnsti datvé matice. 2.4. Ppisná statistika Tat kapitla je napsaná na základě infrmací čerpaných z [2], [4], [7]. V tét kapitle pužíváme datvu matici X n řádcích a D slupcích se slžkami x ij, bsahující v řádcích kmpzice, které pzrujeme. Před samtnu analýzu datvéh subru musíme zkntrlvat, zda-li v datech nejsu chyby, subr nebsahuje nuly a zda-li mají data lgický význam. Zajímají nás také dlehlé hdnty, jejich pčet a vzdálenst d statních dat v subru. Z důvdu nevhdnsti příméh pužití standardních statistických metd v Aitchisnvě gemetrii byly zavedeny specifické číselné charakteristiky, např. centrum, variační matice či celkvý rzptyl. Definice 2.13. Charakteristika plhy pr kmpzice se nazývá centrum. Pr su- 21
br rzsahu n je definván jak ( n ) 1 g = C(g 1, g 2,..., g D ) T n, kde g i = x ij, i = 1, 2,..., D. (2.14) Definice 2.14. Rzptyl subru kmpzic je vyjádřen pmcí variační matice, matice rzptylů lgaritmů pdílů (resp. rtnrmálních suřadnic) jedntlivých j=1 dvjic slžek (x ik, x jk ), i, j = 1, 2,..., D; k = 1, 2,..., n, t 11 t 12... t 1D t 21 t 22... t 2D T =......, t D1 t D2... t DD neb pmcí nrmvané variační matice kde t ij je rzptyl subru { ln x } ik, k = 1, 2,..., n, x jk (2.15) t 11 t 12... t 1D T t 21 t 22... t { 2D 1 =......, kde t ij je rzptyl subru 2 ln x } ik, k = 1, 2,..., n. x jk t D1 t D2... t DD (2.16) Pr t ij a t ij platí: t ij = var ( ) 2 1 ln x ik x jk = 1 t 2 ij, tedy T = 1 T. Tyt matice 2 jsu symetrické a nuly tvří jejich hlavní diagnály. Definice 2.15. Charakteristiku celkvé variability subru kmpzic je celkvý rzptyl ttvar(x) = 1 2D D i=1 D t ij = 1 D j=1 D i=1 D t ij. (2.17) j=1 2.5. Kmpziční biplt V tét části jsme infrmace čerpali zejména z [2], [5], [6]. Biplt zavedl v rce 1971 matematik K. R. Gabriel. Jhn Aitchisn pzději biplt přizpůsbil kmpzičním datům a prkázal, že tent nástrj může být užitečným při redukci dimenze a interpretaci mnhrzměrné struktury kmpzičních dat. 22
2.5.1. Knstrukce bipltu Uvažujme kmpziční datvu matici X s n řádky a D slupci a předpkládáme, že již byla centrvána (ve smyslu Aitchisnvy gemetrie). Vytvříme clr-transfrmvanu centrvanu matici Z = clr (X) pmcí clr keficientů uvedených v definici 2.12. Předpkládáme, že transfrmvaná datvá matice Z má hdnst s (bvykle s = D 1). Tedy na matici Z lze pužít standardní statistické pstupy, zejména pak fakt, že nejlepší aprximace matice Z maticí Y z phledu nejmenšíh sučtu čtverců dchylek je pskytvána singulárním rzkladem matice Z. ZZ T Singulární rzklad matice clr keficientů získáme z matice vlastních vektrů s značením L, matice vlastních vektrů Z T Z značené M a diagnální matice dmcnin s kladných vlastních čísel λ 1, λ 2,..., λ s libvlné z matic ZZ T neb Z T Z s značením K. Následně, pr k i = λ i, t lze zapsat maticvě jak k 1 0... 0 0 k 2... 0 Z = L...... M, (2.18) 0 0... k s kde tzv. singulární hdnty k 1, k 2,..., k s jsu v sestupném přadí dle veliksti. Obě matice L a M jsu rtgnální. Matici aprximace Y hdnsti 2 lze tedy vyjádřit jak Y = ( ) ( ) ( ) k l 1 l 1 0 m T 1 2 0 k 2 m T = 2 l 11 l 21 l 12 l 22 ( ) ( k1 0 m11 m = 12... m 1D.. 0 k 2 m 21 m 22... m 2D l 1n l 2n ). (2.19) Pdíl celkvé variability datvéh subru zachvaný tut aprximací se vypčítá jak λ 1λ 2 s i=1 λ i. 23
Abychm získali hledaný biplt, je nejprve nutné zapsat matici Y jak sučin dvu matic GH T, kde G je matice rzměrech n 2 a H je matice rzměrech D 2. Existují různé mžnsti pr získání takvéh rzkladu, z nichž jeden je n n 1l11 n 1l21 1l12 n 1l22 Y =.. n 1l1n n 1l2n ( k1 n 1 m 11 k n 1 1 m 12... k n 1 1m 1D = k n 1 2 m 21 k n 1 2 m 22... k n 1 2m 2D g 1 g 2. g n ) = ( ) h1, h 2,..., h D. (2.20) Biplt tak zjedndušeně představuje splečné znázrnění n D vektrů g j, j = 1, 2,..., n, a h i, i = 1, 2,..., D, v rvině. Vektry g 1, g 2,..., g n se přitm nazývají skóry a vektry h 1, h 2,..., h D se nazývají zátěže. 2.5.2. Interpretace kmpzičníh bipltu Biplt převádí aprximaci matice Z pmcí matice Y hdnsti dva dané singulárním rzkladem d grafickéh zbrazení. Kmpziční biplt se skládá z: pčátku O, který představuje centrum kmpzičníh datvéh subru, vrchlu na pzici h i pr každu z D slžek, ukazatele na pzici g j pr každé z n pzrvání. Prpjení pčátku O s vrchlem h i se nazývá paprsek Oh i a spjení dvu vrchlů h i a h k se značí jak spjnice h i h k. Tyt rysy tvří základní charakteristiky bipltu s následujícími vlastnstmi pr výklad kmpziční variability. 1. Paprsky a spjnice pskytují infrmaci relativní variabilitě v kmpzičním datvém subru vyjádřené jak h i h k 2 var [ln x ] i a x k [ Oh i 2 var [Zi ] = ln 24 x ] i. (2.21) g(x)
Nicméně je nutné dát pzr při interpretaci paprsků, které nemhu být zttžněny ani s rzptylem var [x i ], ani s rzptylem var [ln x i ], prtže závisí na celé kmpzici skrze g(x 1 ), g(x 2 ),..., g(x n ) a mění se, jestliže se pracuje puze s pdkmpzicí. [ ] 2. Jestliže vrchly i a k splývají (téměř splývají), znamená t, že var ln x i x k je rven nule (téměř rven nule), takže pdíl x i x k je knstantní (téměř knstantní), a slžky x i a x k můžeme pvažvat za vzájemně nahraditelné. Obrázek 3: Osy bipltu skrze paprsky a spjnice. 25
2.6. Hierarchické shlukvání Infrmace zde uvedené jsme získali v [3], [6]. Cílem shlukvé analýzy je nalezení skupin pdbných bjektů ve vícerzměrném prstru. Obsahuje nespčet přístupů a metd, kterými lze tht cíle dsáhnut. Uplatnění nalézá tam, kde se mnžina bjektů rzpadá d skupin, tzn. bjekty se kupí v jedntlivých přirzených shlucích. Následně je nutné charakterizvat vzniklé skupiny. Výše zmíněné metdy a přístupy se liší např. měřením vzdálensti mezi bjekty, algritmem spjvání bjektů d shluků neb interpretací výstupů. V případě kmpzičních dat by takvu vhdnu vzdálenstí byla zřejmě Aitchisnva vzdálenst, ekvivalentně pak můžeme pracvat s clr transfrmvanými daty a standardní euklidvsku vzdálenstí. Dle [3] lze pstup při shlukvání bjektů ppsat tak, že je dána datvá matice X typu n D, kde n je pčet bjektů a D je pčet prměnných (slžek kmpzice). Dále uvažujeme různé rzklady S (k) mnžiny n bjektů d k shluků. Hledá se takvý rzklad, který by byl v určitém smyslu nejvýhdnější. Cílem je dsažení stavu, kdy bjekty uvnitř shluku jsu si c nejvíce pdbné a zárveň c nejméně pdbné s bjekty z různých shluků. Při hierarchickém shlukvání, kterým se budeme dále zabývat, se snažíme vytvřit vhdnu hierarchii shluků. Existují dva pstupy tht shlukvání, tj. aglmerativní a divizivní. Divizivní hierarchický pstup je méně užívaný. Při něm se vychází z jedinéh shluku S (1) a v každém krku jeden ze shluků rzdělíme na dva, takže na knci tht pstupu dstaneme S (n) bsahující jedntlivá pzrvání. Aglmerativní hierarchický pstup lze dle [3] ppsat následvně: 1. Výpčet matice D vhdných měr vzdálenstí. 2. Prces začne d rzkladu S (n), tzn. d n shluků, z nichž každý bsahuje jeden bjekt. 3. Vzhledem k symetrii matice D prjdeme puze hrní neb dlní trjúhelníkvu část a najdeme dva shluky (h-tý a h -tý), jejichž vzdálenst D hh je maximální. 26
4. Spjíme h-tý a h -tý shluk d nvéh g-téh shluku. V matici D dstraníme h-tý a h -tý řádek i slupec a nahradíme je řádkem i slupcem pr nvý shluk. Řád matice D se tak snížil jedničku. 5. Pznamenáme přadí cyklu v = 1, 2,..., n 1, identifikaci spjených bjektů h, h a hladinu pr spjení d 1 = D hh. 6. Jestliže prces vytváření rzkladů ještě nesknčil spjením všech bjektů d jedinéh shluku S (1), tak pkračujeme krkem 3. Dendrgram Je t strmvý diagram, který se s výhdu pužívá ke grafickému znázrnění výsledků hierarchických shlukvacích metd. Obrázek 4 má dvě části. Vprav je zbrazení becnéh pstupu shlukvání a vlev je příslušný dendrgram. Tvří jej dvě sy na vdrvné se jsu jedntlivé bjekty a na svislé se je hladina, na které jsu jedntlivé bjekty spjvány. Obrázek 4: Dendrgram a pstup shlukvání, převzat z [12]. Výsledky výše ppsanéh algritmu se liší dle metdy hdntící vzdálenst mezi shluky. Vzdálenstí pr dva spjvané shluky existuje celkem q = n h n h. 27
Metd hdntících vzdálensti mezi shluky existuje hned něklik, mezi nejužívanější patří právě výše ppsaná metda nejvzdálenějšíh suseda; další metdy (metda nejbližšíh suseda, která vede na řetězvé dendrgramy, dále metda průměrné vazby, centridní metda a Wardva metda) v praktickém příkladu nepužijeme, tudíž je nebudeme více knkretizvat, zájemce prt dkazujeme na [3], [6]. Metda nejvzdálenějšíh suseda Tat metda se bčas nazývá jak metda úplné vazby, či úplnéh spjení (cmplete linkage). Oba shluky, které chceme spjit, jsu zastupeny bjekty, mezi kterými je vzdálenst maximální (br. 5). Tut vzdálenstí D hh tedy rzumíme maximum ze všech q mezishlukvých vzdálenstí bjektů. Obrázek 5: Spjvání shluků v metdě nejvzdálenějšíh suseda, převzat z [12]. 28
3. Praktický příklad V tét kapitle aplikujeme výše zmíněné teretické pznatky na vlastním příkladu, týkajícím se výběru autmbilu. Jak vstupní hyptézu přitm předpkládáme, tak jak širká veřejnst, že při výběru autmbilu ženy preferují estetické vlastnsti před technickými vlastnstmi, kdežt u mužů t bývá napak. Ke stanvení vah jsme využili dvě metdy Metfesselvu alkaci a Saatyh metdu. I když jsu pstupy zpracvání bu datvých subrů ve statistickém sftwaru R analgické, věnujeme každému datvému subru vlastní pdkapitlu, kde ppíšeme pstup zpracvání, numerické a grafické výstupy. Naknec se pkusíme bě metdy prvnat na základě dsažených výsledků a určit tu metdu, která lépe reflektuje vstupní předpklad. K výpčtu jedntlivých vah byly užity sftwary Matlab a Micrsft Excel. Další numerické výpčty a grafická znázrnění jsu prvedeny ve statistickém sftwaru R [11]. 3.1. Dtazník Abychm mhli uskutečnit výpčty a grafická znázrnění, byl zaptřebí mít dstatečné mnžství dat. Nejdříve jsme tedy vytvřili pmcí sftwaru Micrsft Excel příslušný dtazník (Přílha A). Dtazník se skládá ze tří stran a bsahuje bě metdy stanvení vah. První strana uvádí údaje phlaví a věku dtazvanéh (respndenta) a přibližnu instrukci ke správnému vyplnění; druhá strana bsahuje strmvý graf (Metfesselva alkace); třetí strana bsahuje matici intenzit preferencí (Saatyh metda). Cílvu skupinu byli studenti Přírdvědecké fakulty Univerzity Palackéh v Olmuci ve věku 21-25 let. Dtazník byl vyvěšen na sciální síti Facebk ve skupině sdružující tyt studenty, dále byl rzdáván v budvě fakulty a v přilehlých univerzitních stravvacích zařízeních. Takt byl získán 77 dtazníků, bhužel některé z nich nebyly zcela správně vyplněné. Prt byl k analýze pužit 70 dtazníků, v nichž jsu rvnměrně zastupena bě phlaví. 29
3.2. Zpracvání datvéh subru Jak již byl zmíněn, výpčty a grafická zbrazení jsu prváděna ve statistickém prgramu R. Než v něm začneme pracvat, je zaptřebí nastavit zdrjvu slžku v daném pčítači, k čemuž pužijeme příkaz: > setwd("c:/bakalarska prace"). Pr práci s kmpzičními daty je třeba tevřít příslušné knihvny: > library(rbcmpsitins), > library(cmpsitins). Tyt knihvny bsahují různé statistické metdy pr kmpziční data. Kmpziční datvé subry jsu vyjádřeny ve stejných jedntkách, prt nebude třeba škálvání, které by jinak dstranil jejich mžný vliv na výsledky pužitých statistických metd. 3.2.1. Datvý subr získaný Metfesselvu alkací Na pčátku načteme data, která jsu ulžena v textvém subru s názvem Metfessel.txt, jak matici 70 řádcích (respndenti) a 6 slupcích (kritéria): > M=matrix(scan("Metfessel.txt"),ncl=6,byrw=T). Dále pjmenujeme řádky, přičemž "" značí studenty a "" značí studentky: > rwnames(m)=c(rep("",35),rep("",35)), i slupce: > clnames(m)=c("znacka","barva","cena","paliv","sptreba", "Bezpecnst"). Tat tabulka tvří Přílhu B. Základní kmpziční číselné charakteristiky (centrum, variační matice a celkvý rzptyl) jsu pak bsaženy v Přílze C. Centrum získáme příkazem: > g=mean(acmp(m)). Lze jej zbrazit kláčvým grafem, pužijeme k tmu následující příkaz: > pie(g,main="centrum-metfessel",cl=rainbw(6),cex.main=2,cex=1.5). Variační matici vytvříme příkazem: > T=variatin(acmp(M)). 30
K získání celkvéh rzptylu užijeme příkaz: > ttvar=sum(t)/(2*ncl(t)). Nyní prvedeme centrvanu lgrati transfrmaci datvéh subru: > y=cenlr(m)$x.clr. Vzniklá tabulka tvří Přílhu D. Biplt v R nebudeme knstruvat přes singulární rzklady jak byl ppsán výše, ale ekvivalentně pužitím tzv. metdy hlavních kmpnent, pr kteru R bsahuje velmi elegantní implementaci. Další zadaný příkaz: > summary(princmp(y)) tak ukazuje, klik prcent celkvé variability (p vynásbení 100) je vysvětlen pmcí jedntlivých hlavních kmpnent. Ty tvří nvé prměnné (skóry), pužité při knstrukci bipltu. V případě bipltu nás zajímají puze první dva číselné slupce, které vyjadřují (z hlediska variability nejvýznamnější) hlavní kmpnenty. V našem případě tak získáme tabulku: Cmp.1 Cmp.2 Cmp.3 Cmp.4 Cmp.5 Cmp.6 Standard deviatin 1.2352 0.8783 0.6330 0.4768 0.4011 0.0000 Prprtin f Variance 0.4944 0.2499 0.1298 0.0737 0.0522 0.0000 Cumulative Prprtin 0.4944 0.7443 0.8741 0.9478 1.0000 1.0000 V prvním řádku Standard deviatin jsu uvedeny směrdatné dchylky hlavních kmpnent nebli singulární hdnty k i. Řádek Prprtin f Variance říká, že první hlavní kmpnenta Cmp.1 vysvětluje přibližně 49,44% a druhá hlavní kmpnenta Cmp.2 dalších 24,99% celkvé variability, v sučtu t dává 74,43%. Tut hdntu lze vyčíst z řádku Cumulative Prprtin ze slupce s názvem Cmp.2 (čísl 0.7443), cž lze pvažvat za velmi dbrý výsledek. A tedy biplt dbře znázrní reálnu strukturu vícerzměrnéh datvéh subru. Vykreslení tht bipltu zajistí příkaz: > biplt(princmp(y), main="biplt-metfessel", cl=c(1,14), xlab="cmpnent 1 (49,44\%)", ylab="cmpnent 2 (24,99\%)" xlim=c(-0.36,0.25), ylim=c(-0.28,0.28) cex.main=2.5, cex=3). Nyní se pdíváme, jak můžeme příslušný biplt interpretvat. Při phledu 31
Cmpnent 2 (24,99%) 0.3 0.2 0.1 0.0 0.1 0.2 0.3 10 5 Biplt Metfessel 0 5 Bezpecnst Cena Sptreba Paliv Znacka Barva 0.3 0.2 0.1 0.0 0.1 0.2 Cmpnent 1 (49,44%) 10 5 0 5 10 Obrázek 6: Kmpziční biplt. d levé části bipltu (br. 6) lze říci, že silně převažují ženy. Okl knců paprsků barva, značka a cena vidíme shluk studentek, lze tedy říci, že u těcht sb převažují čekávané preference barvy, značky a ceny před technickými vlastnstmi. U knců paprsků paliv a sptřeba se nachází shluk studentů, cž vyjadřuje, že preferují paliv a sptřebu před statními kritérii. C se týče směrů paprsků, tak je zřetelné, že paprsky (značka-barva) směřují pačně než paprsky (paliv-sptřeba), není tedy mezi nimi prakticky žádný vztah (ve smyslu variability pdílů slžek). Můžeme navíc říci, že čím více kupující preferuje estetické vlastnsti (barva, značka), tím více snižuje preference technických vlastnstí (sptřeba a typ paliva). Ve spjení s tím, že zleva dprava ubývá žen, dpvídá t předpkladu, že ženy preferují estetické vlastnsti a cenu před technickými vlastnstmi. Zaměřme se na délku spjnic a uvidíme, 32
že nejkratší spjnici mají dvjice (sptřeba-paliv a značka-barva). Znamená t, že jejich pdíl (x i /x j ) bude skrze celý subr dcela stabilní, existuje mezi nimi určitá závislst (přímá úměrnst). Délky paprsků aprximují směrdatnu dchylku prměnných (clr transfrmvaných). Vidíme, že paprsky bezpečnst, barva, paliv jsu delší než-li paprsky cena, sptřeba, značka. A tedy mají nepatrně větší rzptyl hdnt. Zadáním příkazu > hclust(dist(y)) získáme tabulku, Cluster methd : cmplete Distance : euclidean Number f bjects: 70 jejíž první řádek bsahuje název pužité shlukvé metdy (cmplete), druhý řádek uvádí typ vzdálensti (euclidean) a třetí řádek udává pčet bjektů (70). Chceme-li shlukvání zbrazit graficky a získat tak dendrgram, pužijeme příkaz: > plt(hclust(dist(y)),cex=1.4,cex.main=3,cex.axis=2,cex.lab=2.4, main="cluster Dendrgram-Metfessel",xlab=NULL,ylab="Height"). Při phledu na dendrgram (br. 7) jsu zřetelné dva shluky vlev velký shluk studentů a studentek dhrmady a v pravé části menší shluk studentek s jedinu mužsku výjimku. 33
Cluster Dendrgram Metfessel Height 0 1 2 3 4 5 6 dist(y) hclust (*, "cmplete") Obrázek 7: Shlukvý dendrgram. 3.2.2. Datvý subr získaný Saatyh metdu Nejdříve načteme data ulžená v textvém subru s názvem Saaty.txt jak matici 70 řádcích (respndenti) a 6 slupcích (kritéria): > S=matrix(scan("Saaty.txt"),ncl=6,byrw=T). Dále pjmenujeme řádky i slupce, kde "" značí studenty a "" značí studentky: > rwnames(s)=c(rep("",35),rep("",35)), > clnames(s)=c("znacka","barva","cena","paliv","sptreba", "Bezpecnst"). Tat tabulka tvří Přílhu E. Základní kmpziční číselné charakteristiky (centrum, variační matice a celkvý rzptyl) jsu pak shrnuty v Přílze F. 34
Centrum získáme příkazem: > g=mean(acmp(s)). Lze jej zbrazit kláčvým grafem, pužijeme k tmu následující příkaz: pie(g,main="centrum-saaty",cl=rainbw(6),cex.main=2,cex=1.5). Variační matici vytvříme příkazem: > T=variatin(acmp(S)). K získání celkvéh rzptylu užijeme příkaz: > ttvar=sum(t)/(2*ncl(t)). Nyní prvedeme centrvanu lgrati transfrmaci datvéh subru: > y=cenlr(s)$x.clr. Vzniklá tabulka tvří Přílhu G. Další zadaný příkaz: > summary(princmp(y)) ukazuje, klik prcent celkvé variability (p vynásbení 100) vysvětlují jedntlivé hlavní kmpnenty. V případě bipltu nás pět zajímají puze první dva číselné slupce, které vyjadřují (z hlediska variability nejvýznamnější) hlavní kmpnenty. V našem případě tak získáme tabulku: Cmp.1 Cmp.2 Cmp.3 Cmp.4 Cmp.5 Cmp.6 Standard deviatin 1.2516 0.8996 0.8259 0.6029 0.4337 0.0000 Prprtin f Variance 0.4340 0.2242 0.1890 0.1007 0.0521 0.0000 Cumulative Prprtin 0.4340 0.6582 0.8472 0.9479 1.0000 1.0000 V prvním řádku Standard deviatin jsu uvedeny směrdatné dchylky hlavních kmpnent. Řádek Prprtin f Variance nám říká, že první hlavní kmpnenta Cmp.1 vysvětluje přibližně 43, 4% a druhá hlavní kmpnenta Cmp.2 dalších 22, 42% celkvé variability, v sučtu t dává 65, 82% celkvé variability. Tut hdntu lze lehce vyčíst z třetíh řádku Cumulative Prprtin ze slupce s názvem Cmp.2 (čísl 0.6582), cž není špatný výsledek, ale je nižší než hdnta u předchzí metdy, prt příslušný biplt bude hůře zbrazvat reálnu strukturu vícerzměrnéh datvéh subru. Vykreslení tht bipltu zajistí příkaz: > biplt(princmp(y),main="biplt-saaty",cex.main=2.5,cex.lab=2, 35
xlab="cmpnent 1 (43,4\%)",ylab="Cmpnent 2 (22,42\%)",cex=3, cex.axis=2.4,xlim=c(-0.4,0.3),ylim=c(-0.28,0.23),cl=c(1,4)). 5 Biplt Saaty 0 5 Cmpnent 2 (22,42%) 0.3 0.2 0.1 0.0 0.1 0.2 bezpecnst znacka 0.4 0.3 0.2 0.1 0.0 0.1 0.2 0.3 Cmpnent 1 (43,4%) sptreba paliv cena barva 6 4 2 0 2 4 Obrázek 8: Kmpziční biplt. Při phledu na spdní část bipltu (br. 8) lze říci, že tu převažuje ženské phlaví, především vidíme jednznačný shluk studentek u knce paprsku barva. Lze tedy říci, že u těcht sb silná preference barvy dsti ptlačuje statní preference. Jinak jsu všem bě phlaví, narzdíl d předchzíh bipltu, dcela prmíchaná. C se týče směrů paprsků, tak je zřetelné, že paprsky paliv a sptřeba směřují pačně než paprsek barva, cž znamená, že mezi nimi není prakticky žádný prprcinálně stabilní vztah. Dále lze říci, že, čím více kupující preferuje barvu, tím více se snižuje preference technických vlastnstí (sptřeba a typ paliva). Pdbně pak můžeme hdntit též vztah slžek značka a bezpečnst. 36
Zaměřme se na délku spjnic a uvidíme, že nejkratší spjnici má dvjice (sptřeba-paliv). Znamená t, že jejich pdíl (x i /x j ) bude skrze celý subr dcela stabilní, existuje mezi nimi zřejmá přímá úměrnst. Délky paprsků aprximují směrdatnu dchylku prměnných (clr transfrmvaných). Jednznačně vidíme, že paprsky bezpečnst a barva jsu delší než-li paprsky paliv, sptřeba a značka. A tedy mají větší rzptyl hdnt a mají větší vliv na uspřádání pzrvání v bipltu. Celkvě je všem nutn pdtknut, že struktura pzrvání a vztahy mezi prměnnými v bipltu získaném pmcí Saatyh metdy se zdají pněkud méně intuitivní než v případě Metfesselvy alkace. T se statně prjevuje i ve výsledcích shlukvé analýzy. Příslušný dendrgram získáme pět příkazem: > plt(hclust(dist(y)),cex.main=3,cex.lab=2.4,cex.axis=2,cex=1.8, main="cluster Dendrgram-Saaty",xlab=NULL,ylab="Height"). Cluster Dendrgram Saaty Height 0 1 2 3 4 5 dist(y) hclust (*, "cmplete") Obrázek 9: Shlukvý dendrgram. 37
Při phledu na tent dendrgram (br. 9) vidíme, že shlukvání vektrů vah dle phlaví je jistě méně zřetelné než u předchzí metdy. 3.3. Prvnání výstupů pužitých metd Shrňme si ještě jednu přehledně rzdíly mezi běma metdami knstrukce vah kritérií. Při srvnání tabulek vysvětlené variability pmcí hlavních kmpnent si všimneme, že u datvéh subru Metfessel první dvě hlavní kmpnenty vysvětlují 74,43% variability, přičemž u datvéh subru Saaty 65,82%, tedy 8,61% méně. T způsbí, že biplt první metdy kvalitněji zbrazí reálnu strukturu dat. Datvý subr Metfessel Datvý subr Saaty Cmp.1 Cmp.2 Cmp.1 Cmp.2 Standard deviatin 1.2352 0.8783 1.2516 0.8996 Prprtin f Variance 0.4944 0.2499 0.4340 0.2242 Cumulative Prprtin 0.4944 0.7443 0.4340 0.6582 C se týká shlukvé analýzy, pdíváme-li se na dendrgram Metfessel, uvidíme pčetný shluk studentek v pravé části a něklik méně pčetných, všem již ne tak přehledných, shluků jedntlivých phlaví. U dendrgramu Saaty vidíme nepřehledné shluky. Při phledu na biplty jsu zřetelnější dlišnsti preferencí estetických vlastnstí (značka, barva) a ceny před technickými vlastnstmi (bezpečnst, sptřeba, paliv) a viditelnější shluky u paprsků předpkládaných preferencí studentek a studentů u bipltu subru Metfessel. Dle méh názru tent biplt vyjadřuje skutečné preference respndentů, napak biplt subru Saaty nevyjadřuje preference dtazvaných přesně tak, jak je skutečně cítí. Dmníváme se, že je t způsben intuitivnějším zadáváním vah při Metfesselvě alkaci než při Saatyh metdě. Při Saatyh metdě je zadávání slžitější, pněvadž se tu váhy zadávají nepřím přes hdnty vyjadřující slvní hdncení. 38
Závěr V teretické části tét práce byl mým cílem, aby se čtenáři seznámili s nejzákladnějšími teretickými pjmy vícekriteriálníh rzhdvání a hdncení, zahrnující kritéria hdncení a dvě metdy stanvení jejich vah, a dále se specificku gemetrií a prací s kmpzičními daty. Za cíl praktické části jsem si stanvil využít nastudvané terie při analýze dat získaných z dtazníku běma metdami stanvení vah a c nejintuitivněji interpretvat jejich výstupy, které jsem získal ze statistickéh sftwaru R. Při tvrbě tét práce pr mě byl nejtěžší prniknut d terie, przumět dlišné gemetrii a principům práce s kmpzičními daty a dále pak práce s cizjazyčnu literaturu. Neméně slžité byly pčátky práce se dvěma sftwary, typgrafickým systémem TEX, ve kterém je tat práce vysázena, a statistickým sftwarem R. Ale věřím, že tyt zkušensti zúrčím v dalším studiu neb v buducí pracvní praxi. Jelikž sbě vím, že se stydím vystupvat před více lidmi, tak jsem měl bavy před sbíráním dat zahrnující slvvání studentů. S každým dtázaným studentem a studentku jsem se tht studu zbavval a ke knci jsem si uvědmil, že již nemám prblém s výstupem před publikem, cž pvažuji za sbní vítězství. Dufám, že svéh cíle v teretické i praktické části jsem dsáhl. Mým přáním je, aby tat práce prbudila alespň v hrstce čtenářů zájem dzvědět se více tét mladé, velmi zajímavé a v praxi širce využitelné blasti statistické analýzy. 39
Literatura [1] Aitchisn, J.: The statistical analysis f cmpsitinal data. Chapman&Hall, Lndn, 1986. [2] Buccianti, A., Mateu-Figueras, G., Pawlwsky-Glahn, V.: Cmpsitinal data analysis in the gesciences. Frm thery t practice. Gelgical Sciety, Lndn, 2006. [3] Hebák, P., Hustpecký, J., Pecákvá, I., Průša, M., Řezankvá, H., Svbdvá, A., Vlach, P.: Vícerzměrné statistické metdy 3. Infrmatrium, Praha, 2005. [4] Hrn, K.: Elementy statistické analýzy kmpzičních dat. Infrmační bulletin České statistické splečnsti, 41-46, 2010. [5] Kalivdvá, A.: Diplmvá práce - Kmpziční biplt. Přf UPOL, Olmuc, 2012. [6] Melun, M., Militký, J., Hill, M.: Statistická analýza vícerzměrných dat v příkladech. Academia, Praha, 2012. [7] Pawlwsky-Glahn, V., Egzcue, J.J., Tlsana-Delgad, R.: Lecture ntes n cmpsitinal data analysis. Universitat de Girna, 2007. [8] Talašvá, J.: Fuzzy metdy vícekriteriálníh hdncení a rzhdvání. Univerzita Palackéh, Olmuc, 2003. [9] Triantaphyllu, E.: Multi-criteria decisin making methds: a cmparative study. Kluwer Academic Publishers, Drdrecht, 2000. [10] TEX Users Grup, http://www.tug.rg [nline 14. 12. 2014]. [11] The R prject fr statistical cmputing, http://www.r-prject.rg [nline 20. 12. 2014]. [12] http://cs.jhu.edu/ razvanm/fs-expeditin/tux3.html [nline 12. 1. 2015]. 40
Přílhy Přílha A - Dtazník 1. strana Dtazník bsahuje dvě metdy stanvení vah. Prsím, přečtěte si pzrně zadání každé metdy. Dtazník je annymní, puze uveďte phlaví a věk. Děkuji za Váš čas, který věnujete vyplnění tht dtazníku. Phlaví: Věk: Dtazník k bakalářské práci Kmpziční analýza vah ve vícekriteriálním hdncení variant Kritéria K1 - Značka K2 - Barva K3 - Cena K4 - Paliv K5 - Sptřeba K6 - Bezpečnst Škda, Vlkswagen, Peuget, Citren, BMW, atd. Barva karserie - mdrá, bílá, červená, fialvá, atd. Cena vzidla v Kč Benzín, nafta, elektrmtr Sptřeba paliva Bezpečnst vzidla - ABS, pčet airbagů, typ karserie, atd. Metfesselva alkace Vepište d kének NENULOVÉ váhy dle vašich preferencí. Sučet vah každéh větvení každé úrvně musí být rven 1!!! Saatyh metda Stačí vyplnit hrní, respektive dlní trjúhelník matice S. Dplňte dle vašich preferencí hdnty z tabulky s jazykvými deskriptry. 41
2. strana NÁKUP AUTOMOBILU VZHLED CENA TECHNICKÉ VLASTNOSTI ZNAČKA BARVA K 3 VLIV NA ŽIVOTNÍ PROSTŘEDÍ BEZPEČNOST K 1 K 2 TYP PALIVA SPOTŘEBA K 6 K 4 K 5 42
3. strana Saatyh metda S K 1 - značka K 2 - barva K 3 - cena K 4 - paliv K 5 - sptřeba K 6 - bezpečnst K 1 - značka 1 K 2 - barva 1 K 3 - cena 1 K 4 - paliv 1 K 5 - sptřeba 1 K 6 - bezpečnst 1 s ij 1 3 5 7 9 Jazykvý deskriptr K i je stejně významné jak K j K i je slabě významnější než K j K i je dsti významnější než K j K i je prkazatelně významnější než K j K i je abslutně významnější než K j Pkud je K j významnější než K i, tak přiřaďte brácenu hdntu dle vztahu s ij = 1 s ji 43
Přílha B Datvý subr vah získaných Metfesselvu alkací. Studenti jsu značení () a studentky (). Značka Barva Cena Paliv Sptřeba Bezpečnst 0.32 0.08 0.20 0.08 0.12 0.20 0.125 0.125 0.35 0.036 0.084 0.28 0.24 0.06 0.40 0.027 0.063 0.21 0.14 0.06 0.60 0.012 0.028 0.16 0.1625 0.0875 0.35 0.08 0.12 0.20 0.12 0.08 0.30 0.015 0.135 0.35 0.20 0.30 0.30 0.024 0.056 0.12 0.16 0.04 0.40 0.024 0.056 0.32 0.24 0.06 0.30 0.072 0.168 0.16 0.15 0.05 0.40 0.042 0.078 0.28 0.17 0.03 0.50 0.027 0.063 0.21 0.15 0.05 0.50 0.0225 0.1275 0.15 0.12 0.03 0.35 0.025 0.075 0.40 0.06 0.04 0.50 0.04 0.04 0.32 0.24 0.06 0.25 0.18 0.18 0.09 0.2925 0.1575 0.15 0.162 0.198 0.04 0.42 0.18 0.15 0.09 0.135 0.025 0.36 0.09 0.30 0.0875 0.0875 0.075 0.26 0.14 0.40 0.044 0.066 0.09 0.16 0.04 0.30 0.20 0.20 0.10 0.27 0.03 0.20 0.15 0.225 0.125 0.315 0.135 0.15 0.112 0.168 0.12 0.20 0.05 0.30 0.072 0.288 0.09 0.18 0.12 0.40 0.135 0.135 0.03 0.12 0.03 0.25 0.135 0.315 0.15 0.21 0.14 0.30 0.0525 0.21 0.0875 0.225 0.225 0.20 0.0735 0.1715 0.105 0.15 0.10 0.30 0.126 0.189 0.135 0.15 0.15 0.20 0.12 0.28 0.10 0.11 0.09 0.20 0.168 0.252 0.18 0.195 0.105 0.40 0.0315 0.0735 0.195 0.12 0.03 0.55 0.0135 0.0765 0.21 0.15 0.10 0.25 0.105 0.245 0.15 0.165 0.135 0.15 0.154 0.231 0.165 0.08 0.12 0.20 0.078 0.312 0.21 44