Vícerozměrné sttistické metod Podobnosti vzdálenosti ve vícerozměrném rostoru, sociční mtice I Jiří Jrkovský, Simon Littnerová
FSTA: Pokročilé sttistické metod Princi vužití vzdáleností ve vícerozměrném rostoru
Vzdálenosti nebo odobnosti obektů ve vícerozměrném rostoru Vícerozměrný ois obektů ředstvue eich ozici ve vícerozměrném rostoru Vzth mezi obekt lze vádřit omocí eich vzdálenosti v rostoru Existue celá řd zůsobů měření vzdálenosti v rostoru ro různé t dt (binární, ktegoriální, soitá) Výběr metrik vzdálenosti nebo odobnosti silně ovlivňue výsledk nlýz, rotože definue kým zůsobem vzth mezi obekt interretueme Výběr metrik e dán dvěm ohled: T dt s různými t dt sou st různé metrik Předokld výočtu metrik obdobně ko klsické sttistické metod ni metrik nelze oužít ve všech situcích v některých b dokonce dík eich ředokldům šlo o hrubou chbu Exertní interretce vzthů obektů Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 3
Euklidovská vzdálenost ko rinci výočtu vícerozměrných nlýz Nesnáze ředstvitelným měřítkem vzthu dvou obektů ve vícerozměrném rostoru e eich vzdálenost Neednodušším tem této vzdálenosti (bohužel s omezeným oužitím n dt solečenstev) e Euklidovská vzdálenost vcházeící z Pthgorov vět X c b X Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 4
Různé řístu k měření vzdálenosti Jednou n Mnhttnu. A B Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 5
Asociční mtice NxP MATICE ASOCIAČNÍ MATICE Výočet metrik odobností/ vzdáleností Hodnot rmetrů ro ednotlivé obekt Korelce, kovrince, vzdálenost, odobnost
M rostoru Vzdálenost měst v mě není ničím iným než mticí vzdálenosti v D rostoru Brcelon Bělehrd Berlín Brusel Bukurešť Budešť Kodň Dublin Hmburg Istnbul Kiev Londýn Mdrid Vzdálenost v km Brcelon 0 58 497 06 968 498 757 469 47 30 39 37 504 Bělehrd 58 0 999 37 447 36 37 45 9 809 976 688 06 Berlín 497 999 0 65 93 689 354 35 54 735 04 99 867 Brusel 06 37 65 0 769 3 766 773 489 78 836 38 34 Bukurešť 968 447 93 769 0 639 57 534 544 445 744 088 469 Budešť 498 36 689 3 639 0 0 894 97 064 894 450 975 Kodň 757 37 354 766 57 0 0 38 87 07 36 955 07 Dublin 469 45 35 773 534 894 38 0 073 950 53 46 449 Hmburg 47 9 54 489 544 97 87 073 0 983 440 70 785 Istnbul 30 809 735 78 445 064 07 950 983 0 05 496 734 Kiev 39 976 04 836 744 894 36 53 440 05 0 3 859 Londýn 37 688 99 38 088 450 955 46 70 496 3 0 63 Mdrid 504 06 867 34 469 975 07 449 785 734 859 63 0 Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 7
Metrik vzdálenosti/odobnosti ko klíčový bod vícerozměrné nlýz Výběr metrik vzdálenosti/odobnosti e klíčovým bodem kždé vícerozměrné nlýz: Některé metod umožňuí úlnou volnost ve výběru metrik odobnosti (hierrchická glomertivní shluková nlýz, multidimensionl scling) Některé metod sou římo sté s konkrétní metrikou (PCA, CA, k mens clustering) Chbný výběr metrik může vést k chbným závěrům nlýz (steně ko v klsické sttistické nlýze výběr nevhodného testu nebo oisné sttistik) Metrik odobností nebo vzdáleností kromě vícerozměrných sttistických metod mohou vstuovt i do klsických sttistických výočtů: Poisná sttistik vizulizce metrik Anlogie t testů ANOVA ro sociční mtice Korelce socičních mtic Regrese socičních mtic Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 8
Softwre ro výočet metrik odobnosti/vzdálenosti Různé SW obshuí různé t metrik Sttistic velmi omezený seznm SPSS velké množství metrik R kékoliv metrik, otřeb ninstlování knihoven Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 9
FSTA: Pokročilé sttistické metod Kvntittivní metrik vzdáleností odobností
Euklidovská vzdálenost Jde o zákldní metrické měřítko vzdálenosti očítá vzdálenost obektů obdobně ko Pthgorov vět očítá řeonu rvoúhlého troúhelníku. Metod e citlivá nrozdílnýrozshhodnot vstuuícíchroměnných (vhodným řešením může být stndrdizce) double zero roblém. Nemá horní hrnici hodnot. Jkodlší měřítko se oužívá tké čtverec této vzdálenosti.. Jeho nevýhodou sou semimetrické vlstnosti. X D (X,X ) X Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Průměrná vzdálenost Euklidovská vzdálenost e řeočítán n očet rmetrů (druhů vřídě vzdálenosti solečenstev odběrů). D ( x, x ) ( ) D ( x, x ) D Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod Chord distnce (Orlóci, 967) Odstrňue double zero roblém vliv rozdílného očtu edinců druhů ve vzorcích ři výočtu Euklidovské vzdálenosti. Jeí mximální hodnot e druhá odmocnin ze dvou minimum 0. Při výočtu očítá ouze soměr druhů vrámci ednotlivých vzorků. Jde vlstně o Euklidovskou vzdálenost očítnou ro vektor vzorků stndrdizovné n délku, nebo e možný římý výočet už zhrnuící stndrdizci. Vnitřní část výočtu e vlstně cosinus úhlu svírného vektor, záis vzorce e možný i vtéto formě. 3 ), ( x x D ( ) cosθ 3 D
Geodetická metrik Počítá délku výseče ednotkové kružnice mezi normlizovnými vektor (viz. Chord distnce). D 4 ( x, x ) D (, rccos 3 x x ) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Mhlnobisov vzdálenost (Mhlnobis 936) Jde o obecné měřítko vzdálenosti beroucí vúvhu korelci mezi rmetr e nezávislá n rozshu hodnot rmetrů. Počítá vzdálenost mezi obekt vsstému souřdnic ehož os nemusí být n sebe kolmé. Vrxi se oužívá ro zištění vzdálenosti mezi skuinmi obektů. Jsou dán dvě skuin obektů w w o n n očtu obektů osné rmetr: D ` 5 ( w, w ) dv d Kde d e vektor o délce rozdílů mezi růměr rmetrů vobou skuinách. Ve vážená diserzní mtice (mtice kovrincí rmetrů) uvnitř skuin obektů. V [( n ) S ( n ) S ] n n kde S S sou diserzní mtice ednotlivých skuin. Vektor měří rozdíl mezi rozměrnými růměr skuin Vvkládá do rovnice kovrinci mezi rmetr. d Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Minkowskeho metrik Je obecnou formou výočtu vzdálenosti odle zdného koeficientu může odovídt nř. Euklidovské nebo Mnhttnské metrice. Se stouící koeficientem umocňování stouá význmnost větších rozdílů. Existue eště obecněší form, kd koeficient umocňování odmocňování e zdáván zvlášť. D 6 x, x ) [ ] r r ( Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Mnhttnská vzdálenost Jde vlstně o součet rozdílů ednotlivých rmetrů oisuících obekt D7 ( x, x ) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Men chrcter difference (Czeknowski 909) Mnhttnská vzdálenost řeočítná n očet rmetrů. D8 ( x, x ) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod Whittkerův sociční index (Whittker 95) Je dobře oužitelný ro dt bundncí, kždý druh e nerve trnsformován ve svů odíl ve solečenstvu, následuící výočet e oět obdobou Mnhttnské vzdálenosti. Jeho hodnot e 0 v řídě identických roorcí druhů. Stený výsledek lze získt i ko součet nemenších odílů vrámci obou vzorků. i x x D 9 ), ( x x D 9 min ), (
Cnberr metric (Lnce & Willims 966) Vrint Mnhttnské vzdálenosti (řed výočtem musí být odstrněn double zero není im ted ovlivněn). Stený rozdíl mezi očetnými druh ovlivňue vzdálenost méně než mezi druh vzácněšími. D0 ( x, x ) ( ) Stehenson et l. (97) Moreu & Legendre (979) oužili tuto metriku ko součást koeficientu odobnosti S( x, x ) D 0 Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod Koeficient divergence Obdobná metrik ko D0 le zložená n Euklidovské vzdálenosti vztžená n očet rmetrů. x x D ), (
Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod Coefficient of rcil likeness (Person 96) Umožňue srovnávt skuin obektů odobně ko Mhlnobisov vzdálenost, le n rozdíl od ní neeliminue vliv korelce rmetrů. Dvě skuin obektů w w sou chrkterizován (růměr rmetrů ve skuinách) (roztl rmetrů ve skuinách). i s i ( ) ( ) n s n s w w D,
χ metrik (Roux & Ressc 975) První ze skuin metrik zložených n χ ro výočet vzdáleností odběrů zložených n bundncích druhů nebo iných frekvenčních dtech (nesou říustné žádné záorné hodnot). Dt ůvodní mtice bundncí/frekvencí Y sou nerve řeočítán do mtice oměrných frekvencí (součt frekvencí v řádcích (odběr) sou rovn ). Jko dodtečné chrkteristik ultňovné ři výočtu sou sočten součt řádků i slouců celé! mtice n(i) odběrů x () druhů. Y i i [ ] i i D ( x, x ) Výočet odstrňue roblém double zero. Neednodušším výočtem e obdob Euklidovské vzdálenosti která e dále vážen součt ednotlivých druhů D 5 ( x, x ) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod χ vzdálenost (Lébrt & Fénelon 97) Výočet e odobný χ metrice, le vážení e rováděno reltivní četností řádku v mtici místo eho bsolutního součtu, ři výočtu se užívá rmetr (celkový součet mtice). Je vužíván tké ři výočtu vzthů řádků slouců kontingenční tbulk. 6 ), ( x x D
Hellingerov vzdálenost (Ro 995) Koeficient souviseící sd5 D6. D ( 7 x, x ) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
FSTA: Pokročilé sttistické metod Smetrické binární koeficient odobnosti
Koeficient odobosti (index odobnosti) Ve vícerozměrné nlýze se vužívá řd indexů odobnosti zložených buď n řítomnosti/neřítomnosti ktegorií obektů Binární koeficient odobnosti Solečenstvo Sol ečen stvo 0 b 0 c d, b, c, d očet řídů, kd souhlsí binární chrkteristik solečenstev bcd Smetrické binární koeficient není rozdíl mezi řídem 0 0 Asmetrické binární koeficient rozdíl mezi řídem 0 0 Více informcí dlší měření vzdáleností odobností ndete v knize LEGENDRE, P. & LEGENDRE, L. (998). Numericl ecolog. Elseviere Science BV, Amsterodm. Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Simle mtching coefficient (Sokl & Michener, 958) Obvklou metodou ro výočet odobnosti mezi dvěm obekt e odíl očtu deskritorů, které kóduí obekt steně, celkového očtu deskritorů.při oužití tohoto koeficientu ředokládáme, že není rozdíl mezi nstáním 0 u deskritorů. S ( x, x ) d Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Rogers & Tnimoto koeficient (960) Dává větší váhu rozdílům než odobnostem. S ( x, x ) b d c d Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod Sokl & Sneth (963) Dlší čtři nvržené koeficient obshuí double zero, le sou nvržen tk, b se snížil vliv double zero: tento koeficient dává dvkrát větší váhu shodným deskritorům než rozdílným; orovnává shod rozdíl rostým odílem v měřítku doucím od 0 do nekonečn; orovnává shodné deskritor se součt okrů tbulk; e vtvořen zgeometrických růměrů členů vzthuících se k d, odle koeficientu S5. d c b d x x S ), ( 3 c b d x x S ), ( 4 d c d d b d c b x x S 4 ), ( 5 ) )( ( ) )( ( ), ( 6 d c d b d c b x x S
Hmmnnůvkoeficient S d b c Yuleho koeficient S d d bc bc Personovo Φ (hi) φ d bc ( b)( c d)( c)( b d) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
FSTA: Pokročilé sttistické metod Kvntittivní smetrické metrik odobnosti vzdálenosti
Klsické index odobnosti Sørensenův kvntittivní koeficient, kde N bn sou celkové očt edinců v solečenstvech A B, N e k sum bundncí okud se druh nchází v obou solečenstvech, e očítán vžd z nižší bundnce dného druhu ve solečenstvu C N N ( N bn) Morisit Horn index, kde N e celkový očet edinců ve solečenstvu A n i očet edinců druhu i ve solečenstvu A (obdobně ltí ro solečenstvo B) C mh ( nibni ) ( d db). N. bn d N n i Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Jednoduchý srovnávcí koeficient (Sokl & Michener, 958) modifikovný simle mtching coefficient může být oužit ro multistvové deskritor čittel obshue očet deskritorů, ro které sou dv obekt ve steném stvu nř. e li dvoice obektů osán následuícími deseti multistvovými deskritor: hodnot S,vočítná ro 0 multistvových deskritorů bude S,(x,x) 4 greements/ 0 descritors 0.4 Podobným zůsobem e možné rozšířit všechn binární koeficient ro multistvové deskritor. S x, x ) ( greements Deskritors Obect x 9 3 7 3 4 9 5 4 0 6 Obect x 3 9 3 0 6 Agreements 0 0 0 0 0 0 Σ 4 Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Gowerův obecný koeficient odobnosti (97) I. Gover nvrhl obecný koeficient odobnosti, který může kombinovt různé t deskritorů. Podobnost mezi dvěm obekt e vočítán ko růměr odobností, vočítných ro všechn deskritor. Pro kždý deskritor e hodnot rciální odobnosti s mezi obekt x x vočítán následovně: S 5 ( x, x ) Pro binární deskritor s (shod) nebo 0 (neshod). Gower nvrhl dvě form tohoto koeficientu. Následuící form e smetrická, dává s double zero. Druhá form, Gowerův smetrický koeficient S9 dává ro doublezero s0 Kvlittivní semikvntitivní deskritor sou urven odle ednoduchého změňovcího rvidl, s ři souhlsu s 0 ři nesouhlsu deskritorů. Double zero sou ošetřen steně ko vředchozím odstvci. Kvntittivní deskritor (reálná čísl) sou zrcován následovně: ro kždý deskritor se nerve vočte rozdíl mezi stv obou obektů který e oté vdělen nevětším rozdílem (R), nlezeným ro dný deskritor mezi všemi obekt ve studii (nebo v referenční oulci dooručue se vočítt nevětší diferenci R kždého deskritoru ro celou oulci, b bl zištěn konzistence výsledků ro všechn rciální studie). s Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Gowerův obecný koeficient odobnosti (97) II. normlizovná vzdálenost může být odečten od b bl trnsformován n odobnost: s R Gowerův koeficent může být nstven tk, b zhrnovl řídvný flexibilní rvek: žádné orovnání není vočítáno u deskritorů, u nichž chbí informce buď u ednoho, nebo u druhého obektu. Toto zišťue člen w, nzývný Kroneckerovo delt, oisuící řítomnost/neřítomnost informce vobou obektech: e li informce o deskritoru řítomn u obou obektů (w), ink (w0), tento koeficient nbývá hodnot odobnosti mezi 0 (nevětší odobnost obektů). Dlší možností e vážení různých deskritorů rostým řiřzením čísl vrozshu 0 w. S 5 ( x, x ) w w s Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
FSTA: Pokročilé sttistické metod Asmetrické binární koeficient
Jccrdův koeficient (900, 90, 908) Všechn člen mí stenou váhu S 7 ( x, x ) b c Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Sørensenův koeficient (948) (Coincidence index, Dice(945)) vrint ředchozího koeficientu dává dvonásobnou váhu dvoitým rezencím, rotože se může zdát, že řítomnost druhů e více informtivní než eich bsence, která může být zůsoben různými fktor nemusí nutně odrážet rozdílnost rostředí. Prezence druhu n obou loklitách e silným ukztelem eich odobnosti. S7 e monotónní ks8, roto odobnost ro dvě dvoice obektů vočítná odle S7 bude odobná stenému výočtu S8. Ob koeficient se liší ouze vměřítku. Tento index bl orvé oužit Dicem vr mode studii socicí druhů. Jiná vrint tohoto koeficientu dává dulicitním rezencím tronásobnou váhu. S x, x 8 ( ) b c S x, x 8 ( 3 ) 3 b c Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Sokl & Sneth (963) nvržen ko dolněk Rogers & Tnimotov koeficientu (S), dává dvonásobnou váhu rozdílům ve menovteli. S 0 ( x, x ) b d c Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Russel &Ro (940) nvržená mír umožňue orovnání očtu dulicitních rezencí (v čitteli) roti celkovému očtu druhů, nlezených n všech loklitách, zhrnuícím druh, které chběí (d) n obou uvžovných loklitách. S x, x ) ( Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Kulcznski (98) koeficient orovnávící dulicitní rezence s diferencemi S ( x, x ) b c Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Binární verze smetrického kvntittivního Kulcznski koeficientu (98) Mezi svými koeficient ro resence/bsence dt zmiňuí Sokl & Sneth (963) tuto verzi kvntittivního koeficientu S8, kde sou dulicitní rezence srovnáván se součt okrů tbulk (b) (c). S 3 ( x, x ) b c Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Ochichi (957) oužil ko míru odobnosti geometrický růměr oměrů kočtu druhů n kždé loklitě, t. se součt okrů tbulk (b) (c), tento koeficient e obdobou S6, bez části, týkící se double zero (d). S 4 ( x, x ) ( b) ( c) ( b)( c) Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
Fith (983) V tomto koeficientu e neshod (řítomnost n edné bsence n druhé loklitě) vážen roti dulicitní rezenci. Hodnot S6 klesá srůstem double zero S 6 ( x, x ) d / Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod
FSTA: Pokročilé sttistické metod Práce s sociční mticí
Asociční mtice Tická sociční mtice e čtvercová mtice Tická sociční mtice e smetrická kolem digonál Ve seciálních řídech existuí i smetrické sociční mtice Digonál obshue 0 (v řídě vzdáleností) nebo identitu obektu se sebou smým (odobnosti, obvkle nebo 00%) Asociční mtice může být sočten mezi obekt omocí metrik odobnosti vzdálenosti (Q mode nlýz) nebo mezi roměnnými omocí korelcí kovrincí (R mode nlýz) Asociční mtice mohou být k vstuem do vícerozměrných nlýz tk vstuem ro klsické ednorozměrné sttistické výočt, kd zákldní ednotkou není eden obekt, le odobnost/vzdálenost dvoice obektů Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 47
Příkld výočtu sociční mtice Asociční mtice euklidovských vzdáleností mezi rostlinmi Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 48
Histogrm ko ois sociční mtice 400 00 000 800 600 400 00 0 Euclid Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 49
Vzth mezi různými metrikmi vzdáleností Euclid Euclid stndrdized Squred Euclid stndrdized Mnhttn stndrdized Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 50
Přírv nových učebních mteriálů ro obor Mtemtická biologie e odorován roektem ESF č. CZ..07/..00/07.038 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE Jiří Jrkovský, Simon Littnerová: Vícerozměrné sttistické metod 5