Vícerozměrné sttistické metod Podobnosti vzdálenosti ve vícerozměrném rostoru, sociční mtice I Jiří Jrkovský, Simon Littnerová
Vícerozměrné sttistické metod Princi vužití vzdáleností ve vícerozměrném rostoru
Vzdálenosti nebo odobnosti obektů ve vícerozměrném rostoru Vícerozměrný ois obektů ředstvue eich ozici ve vícerozměrném rostoru Vzth mezi obekt lze vádřit omocí eich vzdálenosti v rostoru Existue celá řd zůsobů měření vzdálenosti v rostoru ro různé t dt (binární, ktegoriální, soitá Výběr metrik vzdálenosti nebo odobnosti silně ovlivňue výsledk nlýz, rotože definue kým zůsobem vzth mezi obekt interretueme Výběr metrik e dán dvěm ohled: T dt s různými t dt sou st různé metrik Předokld výočtu metrik obdobně ko klsické sttistické metod ni metrik nelze oužít ve všech situcích v některých b dokonce dík eich ředokldům šlo o hrubou chbu Exertní interretce vzthů obektů 3
Euklidovská vzdálenost ko rinci výočtu vícerozměrných nlýz Nesnáze ředstvitelným měřítkem vzthu dvou obektů ve vícerozměrném rostoru e eich vzdálenost Neednodušším tem této vzdálenosti (bohužel s omezeným oužitím n dt solečenstev e Euklidovská vzdálenost vcházeící z Pthgorov vět X D ( x, x ( c b X 4
Různé řístu k měření vzdálenosti Jednou n Mnhttnu. A B 5
Asociční mtice NxP MATICE ASOCIAČNÍ MATICE Výočet metrik odobností/ vzdáleností Hodnot rmetrů ro ednotlivé obekt Korelce, kovrince, vzdálenost, odobnost
M rostoru Vzdálenost měst v mě není ničím iným než mticí vzdálenosti v D rostoru Brcelon Bělehrd Berlín Brusel Bukurešť Budešť Kodň Dublin Hmburg Istnbul Kiev Londýn Mdrid Vzdálenost v km Brcelon 0 58 497 06 968 498 757 469 47 30 39 37 504 Bělehrd 58 0 999 37 447 36 37 45 9 809 976 688 06 Berlín 497 999 0 65 93 689 354 35 54 735 04 99 867 Brusel 06 37 65 0 769 3 766 773 489 78 836 38 34 Bukurešť 968 447 93 769 0 639 57 534 544 445 744 088 469 Budešť 498 36 689 3 639 0 0 894 97 064 894 450 975 Kodň 757 37 354 766 57 0 0 38 87 07 36 955 07 Dublin 469 45 35 773 534 894 38 0 073 950 53 46 449 Hmburg 47 9 54 489 544 97 87 073 0 983 440 70 785 Istnbul 30 809 735 78 445 064 07 950 983 0 05 496 734 Kiev 39 976 04 836 744 894 36 53 440 05 0 3 859 Londýn 37 688 99 38 088 450 955 46 70 496 3 0 63 Mdrid 504 06 867 34 469 975 07 449 785 734 859 63 0 7
Metrik vzdálenosti/odobnosti ko klíčový bod vícerozměrné nlýz Výběr metrik vzdálenosti/odobnosti e klíčovým bodem kždé vícerozměrné nlýz: Některé metod umožňuí úlnou volnost ve výběru metrik odobnosti (hierrchická glomertivní shluková nlýz, multidimensionl scling Některé metod sou římo sté s konkrétní metrikou (PCA, CA, k-mens clustering Chbný výběr metrik může vést k chbným závěrům nlýz (steně ko v klsické sttistické nlýze výběr nevhodného testu nebo oisné sttistik Metrik odobností nebo vzdáleností kromě vícerozměrných sttistických metod mohou vstuovt i do klsických sttistických výočtů: Poisná sttistik vizulizce metrik Anlogie t-testů ANOVA ro sociční mtice Korelce socičních mtic Regrese socičních mtic 8
Softwre ro výočet metrik odobnosti/vzdálenosti Různé SW obshuí různé t metrik Sttistic velmi omezený seznm SPSS velké množství metrik R kékoliv metrik, otřeb ninstlování knihoven 9
Vícerozměrné sttistické metod Kvntittivní metrik vzdáleností odobností
Euklidovská vzdálenost Jde o zákldní metrické měřítko vzdálenosti očítá vzdálenost obektů obdobně ko Pthgorov vět očítá řeonu rvoúhlého troúhelníku. Metod e citlivá n rozdílný rozsh hodnot vstuuících roměnných (vhodným řešením může být stndrdizce double zero roblém. Nemá horní hrnici hodnot. D ( x, x ( Jko dlší měřítko se oužívá tké čtverec této vzdálenosti.. Jeho nevýhodou sou semimetrické vlstnosti. X D ( x, x ( D (X,X X
Průměrná vzdálenost Euklidovská vzdálenost e řeočítán n očet rmetrů (druhů v řídě vzdálenosti solečenstev odběrů. D ( x, x ( D ( x, x D
Chord distnce (Orlóci, 967 Odstrňue double zero roblém vliv rozdílného očtu edinců druhů ve vzorcích ři výočtu Euklidovské vzdálenosti. Jeí mximální hodnot e druhá odmocnin ze dvou minimum 0. Při výočtu očítá ouze s oměr druhů v rámci ednotlivých vzorků. Jde vlstně o Euklidovskou vzdálenost očítnou ro vektor vzorků stndrdizovné n délku, nebo e možný římý výočet už zhrnuící stndrdizci. Vnitřní část výočtu e vlstně cosinus úhlu svírného vektor, záis vzorce e možný i v této formě. 3, ( x x D ( cosθ 3 D
Geodetická metrik Počítá délku výseče ednotkové kružnice mezi normlizovnými vektor (viz. Chord distnce. D 4 ( x, x D (, rccos 3 x x
Mhlnobisov vzdálenost (Mhlnobis 936 Jde o obecné měřítko vzdálenosti beroucí v úvhu korelci mezi rmetr e nezávislá n rozshu hodnot rmetrů. Počítá vzdálenost mezi obekt v sstému souřdnic ehož os nemusí být n sebe kolmé. V rxi se oužívá ro zištění vzdálenosti mezi skuinmi obektů. Jsou dán dvě skuin obektů w w o n n očtu obektů osné rmetr: D ` 5 ( w, w dv d Kde d e vektor o délce rozdílů mezi růměr rmetrů v obou skuinách. V e vážená diserzní mtice (mtice kovrincí rmetrů uvnitř skuin obektů. V [( n S ( n S ] n n kde S S sou diserzní mtice ednotlivých skuin. Vektor měří rozdíl mezi - rozměrnými růměr skuin V vkládá do rovnice kovrinci mezi rmetr. d
Minkowskeho metrik Je obecnou formou výočtu vzdálenosti odle zdného koeficientu může odovídt nř. Euklidovské nebo Mnhttnské metrice. Se stouící koeficientem umocňování stouá význmnost větších rozdílů. Existue eště obecněší form, kd koeficient umocňování odmocňování e zdáván zvlášť. D 6 x, x [ ] r r (
Mnhttnská vzdálenost Jde vlstně o součet rozdílů ednotlivých rmetrů oisuících obekt D7 ( x, x
Men chrcter difference (Czeknowski 909 Mnhttnská vzdálenost řeočítná n očet rmetrů. D8 ( x, x
Whittkerův sociční index (Whittker 95 Je dobře oužitelný ro dt bundncí, kždý druh e nerve trnsformován ve svů odíl ve solečenstvu, následuící výočet e oět obdobou Mnhttnské vzdálenosti. Jeho hodnot e 0 v řídě identických roorcí druhů. Stený výsledek lze získt i ko součet nemenších odílů v rámci obou vzorků. i x x D 9, ( x x D 9 min, (
Cnberr metric (Lnce & Willims 966 Vrint Mnhttnské vzdálenosti (řed výočtem musí být odstrněn double zero není im ted ovlivněn. Stený rozdíl mezi očetnými druh ovlivňue vzdálenost méně než mezi druh vzácněšími. D ( x, x 0 ( Stehenson et l. (97 Moreu & Legendre (979 oužili tuto metriku ko součást koeficientu odobnosti S( x, x D 0
Koeficient divergence Obdobná metrik ko D0 le zložená n Euklidovské vzdálenosti vztžená n očet rmetrů. x x D, (
Coefficient of rcil likeness (Person 96 Umožňue srovnávt skuin obektů odobně ko Mhlnobisov vzdálenost, le n rozdíl od ní neeliminue vliv korelce rmetrů. Dvě skuin obektů w w sou chrkterizován (růměr rmetrů ve skuinách (roztl rmetrů ve skuinách. i s i ( ( n s n s w w D,
χ metrik (Roux & Ressc 975 První ze skuin metrik zložených n χ ro výočet vzdáleností odběrů zložených n bundncích druhů nebo iných frekvenčních dtech (nesou říustné žádné záorné hodnot. Dt ůvodní mtice bundncí/frekvencí Y sou nerve řeočítán do mtice oměrných frekvencí (součt frekvencí v řádcích (odběr sou rovn. Jko dodtečné chrkteristik ultňovné ři výočtu sou sočten součt řádků i slouců celé! mtice n(i odběrů x ( druhů. Y i i [ ] i i D ( x, x Výočet odstrňue roblém double zero. Neednodušším výočtem e obdob Euklidovské vzdálenosti která e dále vážen součt ednotlivých druhů D 5 ( x, x
χ vzdálenost (Lébrt & Fénelon 97 Výočet e odobný χ metrice, le vážení e rováděno reltivní četností řádku v mtici místo eho bsolutního součtu, ři výočtu se užívá rmetr (celkový součet mtice. Je vužíván tké ři výočtu vzthů řádků slouců kontingenční tbulk. 6, ( x x D
Hellingerov vzdálenost (Ro 995 Koeficient souviseící s D5 D6. D ( x x 7,
Vícerozměrné sttistické metod Smetrické binární koeficient odobnosti
Koeficient odobosti (index odobnosti Ve vícerozměrné nlýze se vužívá řd indexů odobnosti zložených buď n řítomnosti/neřítomnosti ktegorií obektů Binární koeficient odobnosti Solečenstvo Sol ečen stvo 0 b 0 c d, b, c, d očet řídů, kd souhlsí binární chrkteristik solečenstev bcd Smetrické binární koeficient - není rozdíl mezi řídem - 0-0 Asmetrické binární koeficient - rozdíl mezi řídem - 0-0 Více informcí dlší měření vzdáleností odobností ndete v knize LEGENDRE, P. & LEGENDRE, L. (998. Numericl ecolog. Elseviere Science BV, Amsterodm.
Simle mtching coefficient (Sokl & Michener, 958 Obvklou metodou ro výočet odobnosti mezi dvěm obekt e odíl očtu deskritorů, které kóduí obekt steně, celkového očtu deskritorů. Při oužití tohoto koeficientu ředokládáme, že není rozdíl mezi nstáním 0 u deskritorů. S ( x, x d
Rogers & Tnimoto koeficient (960 Dává větší váhu rozdílům než odobnostem. S ( x, x b d c d
Sokl & Sneth (963 Dlší čtři nvržené koeficient obshuí double-zero, le sou nvržen tk, b se snížil vliv double-zero: tento koeficient dává dvkrát větší váhu shodným deskritorům než rozdílným; orovnává shod rozdíl rostým odílem v měřítku doucím od 0 do nekonečn; orovnává shodné deskritor se součt okrů tbulk; e vtvořen z geometrických růměrů členů vzthuících se k d, odle koeficientu S5. d c b d x x S, ( 3 c b d x x S, ( 4 d c d d b d c b x x S 4, ( 5 ( ( ( (, ( 6 d c d b d c b x x S
Hmmnnův koeficient S d b c Yuleho koeficient S d d bc bc Personovo Φ (hi φ d bc ( b( c d( c( b d
Vícerozměrné sttistické metod Kvntittivní smetrické metrik odobnosti vzdálenosti
Klsické index odobnosti Sørensenův kvntittivní koeficient, kde N bn sou celkové očt edinců v solečenstvech A B, N e k sum bundncí okud se druh nchází v obou solečenstvech, e očítán vžd z nižší bundnce dného druhu ve solečenstvu N C N ( N bn Morisit-Horn index, kde N e celkový očet edinců ve solečenstvu A n i očet edinců druhu i ve solečenstvu A (obdobně ltí ro solečenstvo B C mh ( nibni ( d db. N. bn d N n i
Jednoduchý srovnávcí koeficient (Sokl & Michener, 958 modifikovný simle mtching coefficient může být oužit ro multistvové deskritor - čittel obshue očet deskritorů, ro které sou dv obekt ve steném stvu nř. e-li dvoice obektů osán následuícími deseti multistvovými deskritor: hodnot S,vočítná ro 0 multistvových deskritorů bude S,(x,x 4 greements/ 0 descritors 0.4 Podobným zůsobem e možné rozšířit všechn binární koeficient ro multistvové deskritor. S x, x ( greements Deskritors Obect x 9 3 7 3 4 9 5 4 0 6 Obect x 3 9 3 0 6 Agreements 0 0 0 0 0 0 Σ 4
Gowerův obecný koeficient odobnosti (97 I. Gover nvrhl obecný koeficient odobnosti, který může kombinovt různé t deskritorů. Podobnost mezi dvěm obekt e vočítán ko růměr odobností, vočítných ro všechn deskritor. Pro kždý deskritor e hodnot rciální odobnosti s mezi obekt x x vočítán následovně: S 5 ( x, x Pro binární deskritor s (shod nebo 0 (neshod. Gower nvrhl dvě form tohoto koeficientu. Následuící form e smetrická, dává s double-zero. Druhá form, Gowerův smetrický koeficient S9 dává ro doublezero s0 Kvlittivní semikvntitivní deskritor sou urven odle ednoduchého změňovcího rvidl, s ři souhlsu s 0 ři nesouhlsu deskritorů. Double zero sou ošetřen steně ko v ředchozím odstvci. Kvntittivní deskritor (reálná čísl sou zrcován následovně: ro kždý deskritor se nerve vočte rozdíl mezi stv obou obektů který e oté vdělen nevětším rozdílem (R, nlezeným ro dný deskritor mezi všemi obekt ve studii (nebo v referenční oulci dooručue se vočítt nevětší diferenci R kždého deskritoru ro celou oulci, b bl zištěn konzistence výsledků ro všechn rciální studie. s
Gowerův obecný koeficient odobnosti (97 II. normlizovná vzdálenost může být odečten od b bl trnsformován n odobnost: s R Gowerův koeficent může být nstven tk, b zhrnovl řídvný flexibilní rvek: žádné orovnání není vočítáno u deskritorů, u nichž chbí informce buď u ednoho, nebo u druhého obektu. Toto zišťue člen w, nzývný Kroneckerovo delt, oisuící řítomnost/neřítomnost informce v obou obektech: e-li informce o deskritoru řítomn u obou obektů (w, ink (w0, tento koeficient nbývá hodnot odobnosti mezi 0 (nevětší odobnost obektů. Dlší možností e vážení různých deskritorů rostým řiřzením čísl v rozshu 0- w. S 5 ( x, x w w s
Vícerozměrné sttistické metod Asmetrické binární koeficient
Jccrdův koeficient (900, 90, 908 Všechn člen mí stenou váhu S 7 ( x, x b c
Sørensenův koeficient (948 (Coincidence index, Dice(945 vrint ředchozího koeficientu dává dvonásobnou váhu dvoitým rezencím, rotože se může zdát, že řítomnost druhů e více informtivní než eich bsence, která může být zůsoben různými fktor nemusí nutně odrážet rozdílnost rostředí. Prezence druhu n obou loklitách e silným ukztelem eich odobnosti. S7 e monotónní k S8, roto odobnost ro dvě dvoice obektů vočítná odle S7 bude odobná stenému výočtu S8. Ob koeficient se liší ouze v měřítku. Tento index bl orvé oužit Dicem v R-mode studii socicí druhů. Jiná vrint tohoto koeficientu dává dulicitním rezencím tronásobnou váhu. S 8 ( x, x b c S 8 ( x, x 3 3 b c
Sokl & Sneth (963 nvržen ko dolněk Rogers & Tnimotov koeficientu (S, dává dvonásobnou váhu rozdílům ve menovteli. S 0 ( x, x b d c
Russel & Ro (940 nvržená mír umožňue orovnání očtu dulicitních rezencí (v čitteli roti celkovému očtu druhů, nlezených n všech loklitách, zhrnuícím druh, které chběí (d n obou uvžovných loklitách. S x, x (
Kulcznski (98 koeficient orovnávící dulicitní rezence s diferencemi S ( x, x b c
Binární verze smetrického kvntittivního Kulcznski koeficientu (98 Mezi svými koeficient ro resence/bsence dt zmiňuí Sokl & Sneth (963 tuto verzi kvntittivního koeficientu S8, kde sou dulicitní rezence srovnáván se součt okrů tbulk (b (c. S 3 ( x, x b c
Ochichi (957 oužil ko míru odobnosti geometrický růměr oměrů k očtu druhů n kždé loklitě, t. se součt okrů tbulk (b (c, tento koeficient e obdobou S6, bez části, týkící se double-zero (d. S 4 ( x, x ( b ( c ( b( c
Fith (983 V tomto koeficientu e neshod (řítomnost n edné bsence n druhé loklitě vážen roti dulicitní rezenci. Hodnot S6 klesá s růstem double-zero S 6 ( x, x d /
Vícerozměrné sttistické metod Práce s sociční mticí
Asociční mtice Tická sociční mtice e čtvercová mtice Tická sociční mtice e smetrická kolem digonál Ve seciálních řídech existuí i smetrické sociční mtice Digonál obshue 0 (v řídě vzdáleností nebo identitu obektu se sebou smým (odobnosti, obvkle nebo 00% Asociční mtice může být sočten mezi obekt omocí metrik odobnosti vzdálenosti (Q mode nlýz nebo mezi roměnnými omocí korelcí kovrincí (R mode nlýz Asociční mtice mohou být k vstuem do vícerozměrných nlýz tk vstuem ro klsické ednorozměrné sttistické výočt, kd zákldní ednotkou není eden obekt, le odobnost/vzdálenost dvoice obektů 47
Příkld výočtu sociční mtice Asociční mtice euklidovských vzdáleností mezi rostlinmi 48
Histogrm ko ois sociční mtice 400 00 000 800 600 400 00 0 Euclid 49
Vzth mezi různými metrikmi vzdáleností Euclid Euclid stndrdized Squred Euclid stndrdized Mnhttn stndrdized 50