Sttistické hodnocení biodiverzity Vícerozměrná nlýz biodiverzity Jiří Jrkovský
Metody nlýzy biodiverzity Species bundnce modely Vícerozměrná nlýz Indexy diverzity X 2
Vícerozměrná nlýz společenstev: výhody nevýhody N dt biodiverzity může být plikován řd shlukovcích, ordinčních, regresních klsifikčních vícerozměrných technik. Tyto metody hledjí v rozsáhlých dtech vícerozměrné vzory společenstev umožňující odpovědět n následující otázky: Vzth druhů k prostředí Prostorové vzthy Interkce txonů Výhody: Shrnující výsledky postihující všechny spekty dt Identifikce skrytých interkcí vzthů mezi proměnnými Nevýhody: Náročné n dt metodiku Vyždují expertní znlosti jk v oblsti sttistické metodiky, tk biologických společenstev, v opčném přípdě mohou vést k nesprávným závěrům interpretcím 3
Cíle vícerozměrné nlýzy dt Kždý objekt reálného svět můžeme popst jeho pozicí v mnohorozměrném prostoru, v extrémním přípdě jde ž o desetitisíce dimenzí Více než 3D prostor je pro nás vizuálně neuchopitelný hledání vzthů ve více než 3 dimenzích je problemtické Vícerozměrná nlýz se tento problém snží řešit různými přístupy: Redukce dimenzionlity dt sloučením korelovných proměnných do menšího počtu fktorových proměnných Identifikce shluků objektů ve vícerozměrném prostoru následná redukce vícedimenzionálního problému ktegorizcí objektů do zjištěných shluků Zjednodušení Interpretce 4
Příkld vícerozměrného popisu objektů ID objektu Dimenze 1 Dimenze 2 Dimenze 3 Dimenze 4 SEPALLEN SEPALWID PETALLEN PETALWID SETOSA 5.0 3.3 1.4 0.2 VIRGINIC 6.4 2.8 5.6 2.2 VERSICOL 6.5 2.8 4.6 1.5 VIRGINIC 6.7 3.1 5.6 2.4 VIRGINIC 6.3 2.8 5.1 1.5 SETOSA 4.6 3.4 1.4 0.3 VIRGINIC 6.9 3.1 5.1 2.3 VERSICOL 6.2 2.2 4.5 1.5 VERSICOL 5.9 3.2 4.8 1.8 SETOSA 4.6 3.6 1.0 0.2 SEPALLEN SEPALWID PETALLEN PETALWID 5
Vícerozměrná nlýz dt = pohled ze správného úhlu Vícerozměrná nlýz nám pomáhá nlézt v x dimenzionálním prostoru nejvhodnější pohled n dt poskytující mximum informcí o nlyzovných objektech Všechny obrázky ukzují stejný objekt z různých úhlů v 3D prostoru. 6
Obecný princip redukce dimenzionlity dt V převážné většině přípdů existují mezi dimenzemi korelční vzthy, tedy dimenze se nvzájem vysvětlují pro popis kompletní informce v dtech není třeb všech dimenzí vstupního souboru Všechny tzv. ordinční metody využívjí principu identifikce korelovných dimenzí jejich sloučení do souhrnných nových dimenzí zstupujících několik dimenzí vstupního souboru Pokud mezi dimenzemi vstupního souboru neexistují korelce, nemá smysl hledt zjednodušení vícerozměrné struktury tkovéhoto souboru!!!? y y z?? Jednoznčný vzth dimenzí x y umožňuje jejich nhrzení jedinou novou dimenzí z x??? V přípdě neexistence vzthu mezi x y nemá smysl definovt nové dimenze nepřináší žádnou novou informci oproti x y? x? 7
Obecný princip hledání shluků v dtech Vzájemnou pozici objektů ve vícerozměrném prostoru lze popst jejich vzdáleností Dle vzdálenosti objektů je můžeme slučovt do shluků přiřzení objektů ke shlukům ve vícerozměrném prostoru následně využít pro zjednodušení jejich x dimenzionálního popisu Smysluplnost výsledků shlukování závisí jednk n objektivní existenci shluků v dtech, jednk n rbitrárně nstvených kritériích definice shluků Jednoznčné odlišení existujících shluků v dtech (obdob multimodálního rozložení) Shluková nlýz je možná i v tomto přípdě, nicméně hrnice shluků jsou dány pouze nším rozhodnutím. 8
Omezení vícerozměrné nlýzy dt Vícerozměrná nlýz může přinést zjednodušení dimenzionlity dt pouze v přípdě, kdy dt skrývjí nějkou identifikovtelnou vícerozměrnou strukturu Mezi dimenzemi existují vzthy (korelce) umožňující nhrzení korelovných dimenzí zástupnou souhrnnou dimenzí Objekty vytváří v x dimenzionálním prostoru shluky nebo jiné nenáhodné struktury Pro náhodně rozmístěné objekty bez korelcí mezi dimenzemi jejich x dimenzionálního prostoru nepřináší vícerozměrná nlýz žádné nové informce oproti původním dimenzím Důležitý je poměr počtu objektů (řádky tbulky) dimenzí (sloupce tbulky). Čím je tento poměr menší tím větší je šnce, že výsledky nlýzy jsou ovlivněny náhodnými procesy. Z minimální poměr pro získání vlidních výsledků je povžováno 10 objektů n 1 dimenzi. Pro vícerozměrné nlýzy pltí obdobné předpokldy jko pro jednorozměrnou sttistickou nlýzu; vzhledem k jejich možnému porušení n úrovni kombince několik dimenzí je tyto předpokldy třeb kontrolovt ještě pečlivěji než u jednorozměrné nlýzy Kromě klsických sttistických předpokldů je při vícerozměrných nlýzách třeb věnovt pozornost výběru metrik vzdáleností mezi objekty (klíčové ovlivnění interpretce výsledků) jejich předpokldům Pokud výsledky vícerozměrné nlýzy nejsou interpretovtelné je třeb zvážit, zd použití vícerozměrné nlýzy přináší oproti sdě jednorozměrných nlýz nějkou přidnou hodnotou Využitelná vícerozměrná nlýz by měl být: Vybrán vhodná metod pro řešení dného problému korektně spočítán z dodržení všech předpokldů Interpretovtelná přinášející novou informci oproti nlýze původních dimenzí 9
Korelce jko princip výpočtu vícerozměrných nlýz Kovrince Personov korelce je zákldem nlýzy hlvních komponent, fktorové nlýzy jkož i dlších vícerozměrných nlýz prcujících s lineární závislostí proměnných Předpokldem výpočtu kovrince Personovy korelce je: Normlit dt v obou dimenzích Linerit vzthu proměnných Pro vícerozměrné nlýzy je nejzávžnějším problémem přítomnost odlehlých hodnot y y y Lineární vzth bezproblémové použití Personovy korelce x Korelce je dán dvěm skupinmi hodnot vede k identifikci skupin objektů v dtech x Korelce je dán odlehlou hodnotu nlýz popisuje pouze vliv odlehlé hodnoty x 10
Anlýz kontingenčních tbule jko princip výpočtu vícerozměrných nlýz Abundnce txonů (nebo počet jkýchkoliv objektů) n loklitách lze brát jko kontingenční tbulku mírou vzthu mezi řádky (loklity) sloupci (txony) je velikost chi kvdrátu χ 2 (1) = pozorovná četnost očekávná četnost očekávná četnost 2 Počítáno pro kždou buňku tbulky A 10 0 A 5 5 B 0 10 B 5 5 Pozorovná tbulk Očekávná tbulk Hodnot chi kvdrátu definuje míru odchylky dné buňky (v nšem kontextu vzthu txon loklit) od situce, kdy mezi řádky sloupci (txon loklit) není žádný vzth 11
Euklidovská vzdálenost jko princip výpočtu vícerozměrných nlýz Nejsnáze předstvitelným měřítkem vzthu dvou objektů ve vícerozměrném prostoru je jejich vzdálenost Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím n dt společenstev) je Euklidovská vzdálenost vycházející z Pythgorovy věty X 2 y 22 c b y 21 X 1 y 11 y 12 12
Double zero problém V přípdě binárních metrik (druh se vyskytuje/nevyskytuje) není možné uvžovt stejnou váhu pro souhls přítomnosti (11) nepřítomnosti (00) txonů (symetrický koeficient) Problémem využití všech typů metrik pro dt bundncí spočívá v odlišném význmu přítomnosti nepřítomnosti txonů Pokud se txon nchází v obou srovnávných společenstvech znmená to že společenstv si budou v tomto ohledu podobná, protože mjí podmínky umožňující přítomnost txonu Pokud se txon nenchází ni v jednom ze dvou srovnávných společenstev příčin může být nejrůznější double zero problem Pro odstrnění tohoto problému je použito symetrické hodnocení souhlsné přítomnosti (11) nepřítomnosti (00) txonů (symetrické koeficienty) 13
Pojmy vícerozměrných nlýz Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dt, tto dt jsou tvořen jednotlivými objekty (i.e. klienti) kždý z nich je chrkterizován svými prmetry (věk, příjem td.) kždý z těchto prmetrů můžeme povžovt z jeden rozměr objektu. Mticová lgebr: Zákldem práce s dty výpočtů vícerozměrných metod je mticová lgebr, mtice tvoří jk vstupní, tk výstupní dt probíhjí n nich výpočty. NxP mtice: N objektů s p prmetry pk vytváří tzv. NxP mtici, která je prvním typem vstupu dt do vícerozměrných nlýz. Asociční mtice: N zákldě těchto mtic jsou počítány mtice sociční n nichž pk probíhjí dlší výpočty, jde o čtvercové mtice obshující informce o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode nlýz) nebo prmetrů (R mode nlýz).měřítko podobnosti se liší podle použité metody typu dt, některé metody umožňují použití uživtelských metrik.
Vstupní mtice vícerozměrných nlýz NxP MATICE ASOCIAČNÍ MATICE Výpočet metriky podobností/ vzdáleností Hodnoty prmetrů pro jednotlivé objekty Korelce, kovrince, vzdálenost, podobnost
Zákldní typy vícerozměrných nlýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY vytváření shluků objektů n zákldě jejich podobnosti identifikce typů objektů zjednodušení vícerozměrného problému do menšího počtu rozměrů principem je tvorb nových rozměrů, které lépe vyčerpávjí vribilitu dt
Typy vícerozměrných nlýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY y Fktorové osy y x x podobnost
Seznm txonů vícerozměrný popis společenstv N seznm txonů lze pohlížet tké jko seznm rozměrů společenstv Záznm o nlezených txonech tk vlstně tvoří vícerozměrný popis dného společenstv Společenstv můžeme srovnávt podle jejich vzájemné pozice v n rozměrném prostoru Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo vzdálenosti
Koeficienty podobosti (indexy podobnosti) V ekologii se využívá řd indexů podobnosti zložených buď n přítomnosti/nepřítomnosti txonů nebo n bundncích Binární koeficienty podobnosti Společenstvo 1 Spol ečen stvo 2 1 0 1 b 0 c d, b, c, d = počet přípdů, kdy souhlsí binární chrkteristik společenstev 1 2 bcd=p Symetrické binární koeficienty není rozdíl mezi přípdem 1 1 0 0 Asymetrické binární koeficienty rozdíl mezi přípdem 1 1 0 0 Více informcí dlší měření vzdáleností podobností njdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numericl ecology. Elseviere Science BV, Amsterodm.
ffgf Vícerozměrná nlýz dt Symetrické binární koeficienty 20
Simple mtching coefficient (Sokl & Michener, 1958) Obvyklou metodou pro výpočet podobnosti mezi dvěm objekty je podíl počtu deskriptorů, které kódují objekt stejně, celkového počtu deskriptorů.při použití tohoto koeficientu předpokládáme, že není rozdíl mezi nstáním 0 1 u deskriptorů. S 1 ( x, x ) 1 2 = p d
Rogers & Tnimoto koeficient (1960) Dává větší váhu rozdílům než podobnostem. S 2 ( x, x ) 1 2 = 2b d 2c d
Sokl & Sneth (1963) Dlší čtyři nvržené koeficienty obshují double zero, le jsou nvrženy tk, by se snížil vliv double zero: tento koeficient dává dvkrát větší váhu shodným deskriptorům než rozdílným; porovnává shody rozdíly prostým podílem v měřítku jdoucím od 0 do nekonečn; porovnává shodné deskriptory se součty okrjů tbulky; je vytvořen zgeometrických průměrů členů vzthujících se k d, podle koeficientu S5. d c b d x x S 2 2 2 2 ), ( 2 1 3 = c b d x x S = ), ( 2 1 4 = d c d d b d c b x x S 4 1 ), ( 2 1 5 ) )( ( ) )( ( ), ( 2 1 6 d c d b d c b x x S =
Hmmnnův koeficient S = d b p c Yuleho koeficient S = d d bc bc Personovo Φ (phi) φ = d bc ( b)( c d)( c)( b d)
ffgf Vícerozměrná nlýz dt Asymetrické binární koeficienty 25
Jccrdův koeficient (1900, 1901, 1908) Všechny členy mjí stejnou váhu S 7 ( x, x 1 2 ) = b c
Sørensenův koeficient (1948) (Coincidence index, Dice(1945)) vrint předchozího koeficientu dává dvojnásobnou váhu dvojitým prezencím, protože se může zdát, že přítomnost druhů je více informtivní než jejich bsence, která může být způsoben různými fktory nemusí nutně odrážet rozdílnost prostředí. Prezence druhu n obou loklitách je silným ukztelem jejich podobnosti. S7 je monotónní ks8, proto podobnost pro dvě dvojice objektů vypočítná podle S7 bude podobná stejnému výpočtu S8. Ob koeficienty se liší pouze vměřítku. Tento index byl poprvé použit Dicem vr mode studii socicí druhů. Jiná vrint tohoto koeficientu dává duplicitním prezencím trojnásobnou váhu. S x, x 8 ( 1 2 2 ) = 2 b c S x, x 8 ( 1 2 3 ) = 3 b c
Sokl & Sneth (1963) nvržen jko doplněk Rogers & Tnimotov koeficientu (S2), dává dvojnásobnou váhu rozdílům ve jmenovteli. S 10 ( x1, x2 ) = 2b d 2c
Russel &Ro (1940) nvržená mír umožňuje porovnání počtu duplicitních prezencí (v čitteli) proti celkovému počtu druhů, nlezených n všech loklitách, zhrnujícím druhy, které chybějí (d) n obou uvžovných loklitách. S x, x ) = ( 11 1 2 p
Kulczynski (1928) koeficient porovnávjící duplicitní prezence s diferencemi S 12 ( x1, x2 ) = b c
Binární verze symetrického kvntittivního Kulczynski koeficientu (1928) Mezi svými koeficienty pro presence/bsence dt zmiňují Sokl & Sneth (1963) tuto verzi kvntittivního koeficientu S18, kde jsou duplicitní prezence srovnávány se součty okrjů tbulky (b) (c). S 13 ( x1, x2 ) = 1 2 b c
Ochichi (1957) použil jko míru podobnosti geometrický průměr poměrů kpočtu druhů n kždé loklitě, tj. se součty okrjů tbulky (b) (c), tento koeficient je obdobou S6, bez části, týkjící se double zero (d). S 14 ( x1, x2 ) = ( b) ( c) = ( b)( c)
Fith (1983) V tomto koeficientu je neshod (přítomnost n jedné bsence n druhé loklitě) vážen proti duplicitní prezenci. Hodnot S26 klesá srůstem double zero S 26 ( x1, x2 ) = d p / 2
ffgf Vícerozměrná nlýz dt Kvntittivní koeficienty 34
Klsické indexy podobnosti Sørensenův kvntittivní koeficient, kde N bn jsou celkové počty jedinců v společenstvech A B, jn je pk sum bundncí pokud se druh nchází v obou společenstvech, je počítán vždy z nižší bundnce dného druhu ve společenstvu C 2 jn = N ( N bn) Morisit Horn index, kde N je celkový počet jedinců ve společenstvu A n i počet jedinců druhu i ve společenstvu A (obdobně pltí pro společenstvo B) C mh 2 ( nibni ) = ( d db). N. bn d = N n 2 i 2
Jednoduchý srovnávcí koeficient (Sokl & Michener, 1958) modifikovný simple mtching coefficient může být použit pro multistvové deskriptory čittel obshuje počet deskriptorů, pro které jsou dv objekty ve stejném stvu npř. je li dvojice objektů popsán následujícími deseti multistvovými deskriptory: hodnot S1,vypočítná pro 10 multistvových deskriptorů bude S1,(x1,x2) = 4 greements/ 10 descriptors = 0.4 Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistvové deskriptory. S x, x ) = 1 ( 1 2 greements p Deskriptors Object x 1 9 3 7 3 4 9 5 4 0 6 Object x 2 2 3 2 1 2 9 3 2 0 6 Agreements 0 1 0 0 0 1 0 0 1 1 Σ 4
Gowerův obecný koeficient podobnosti (1971) I. Gover nvrhl obecný koeficient podobnosti, který může kombinovt různé typy deskriptorů. Podobnost mezi dvěm objekty je vypočítán jko průměr podobností, vypočítných pro všechny deskriptory. Pro kždý deskriptor j je hodnot prciální podobnosti s 12j mezi objekty x1 x2 vypočítán následovně: S 15 ( x 1, x 2 ) = 1 p p j= 1 Pro binární deskriptory sj=1 (shod) nebo 0 (neshod). Gower nvrhl dvě formy tohoto koeficientu. Následující form je symetrická, dává sj=1 double zero. Druhá form, Gowerův symetrický koeficient S19 dává pro doublezero sj=0 Kvlittivní semikvntitivní deskriptory jsou uprveny podle jednoduchého změňovcího prvidl, sj=1 při souhlsu sj = 0 při nesouhlsu deskriptorů. Double zero jsou ošetřeny stejně jko vpředchozím odstvci. Kvntittivní deskriptory (reálná čísl) jsou zprcovány následovně: pro kždý deskriptor se nejprve vypočte rozdíl mezi stvy obou objektů který je poté vydělen největším rozdílem (Rj), nlezeným pro dný deskriptor mezi všemi objekty ve studii (nebo v referenční populci doporučuje se vypočítt největší diferenci Rj kždého deskriptoru j pro celou populci, by byl zjištěn konzistence výsledků pro všechny prciální studie). s 12 j
Gowerův obecný koeficient podobnosti (1971) II. normlizovná vzdálenost může být odečten od 1 by byl trnsformován n podobnost: s = 12 j 1 y 1 j R j Gowerův koeficent může být nstven tk, by zhrnovl přídvný flexibilní prvek: žádné porovnání není vypočítáno u deskriptorů, u nichž chybí informce buď u jednoho, nebo u druhého objektu. Toto zjišťuje člen wj, nzývný Kroneckerovo delt, popisující přítomnost/nepřítomnost informce v obou objektech: je li informce o deskriptoru yj přítomn u obou objektů (wj=1), jink (wj=0), tento koeficient nbývá hodnot podobnosti mezi 0 1 (největší podobnost objektů). Dlší možností je vážení různých deskriptorů prostým přiřzením čísl vrozshu 0 1 wj. y 2 j S j= 1 15 ( x1, x2 ) = p p w j= 1 12 j w s 12 j 12 j
Příprv nových učebních mteriálů pro obor Mtemtická biologie je podporován projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE 39