PCA BIPLOT ŠKÁLOVÁNÍ OS (1)

Podobné dokumenty
David Zelený GRADIENTOVÁ ANALÝZA

PŘÍKLADY POUŽITÍ ORDINAČNÍCH METOD

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Vícerozměrné statistické metody

Vícerozměrné statistické metody

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

Ordinační analýzy v programu JUICE

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Gradient. Gradient změna některého faktoru prostředí

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Vícerozměrné statistické metody

Vícerozměrné statistické metody

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

INDEXY DIVERZITY. David Zelený Zpracování dat v ekologii společenstev

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Úvodem Dříve les než stromy 3 Operace s maticemi

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

REGRESE VS KALIBRACE. David Zelený Zpracování dat v ekologii společenstev

INDEXY DIVERZITY. David Zelený Zpracování dat v ekologii společenstev

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Mnohorozměrná analýza ekologických dat

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

DIVERZITA. David Zelený Zpracování dat v ekologii společenstev

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Přednáška 13 Redukce dimenzionality

SPECIES ATTRIBUTES IN ANALYSIS OF COMMUNITY ECOLOGY DATA

Fakulta chemicko technologická Katedra analytické chemie

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

Analýza hlavních komponent

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Matematika pro geometrickou morfometrii

Měření závislosti statistických dat

UNIVERZITA PARDUBICE. Semestrální práce z 5. soustředění

Hodnocení obcí podle zastoupení druhů pozemků 1

Internal bounds and hidden structure of the metallurgic data with the use of Multivariate Data Analysis MDA

Vytěžování znalostí z dat

Užití země v České republice v letech 1994 až 2012 Karel Matějka IDS, Na Komořsku 2175/2a, Praha 4, Česká republika matejka@infodatasys.

Cvičná bakalářská zkouška, 1. varianta

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Analýza dat na PC I.

Tomáš Karel LS 2012/2013

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

KGG/STG Statistika pro geografy

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Shluková analýza dat a stanovení počtu shluků

Vícerozměrné regulační diagramy. Josef Křepela, Jiří Michálek OSSM

AVDAT Mnohorozměrné metody metody redukce dimenze

Státnice odborné č. 20

Matematika pro geometrickou morfometrii (3)

Hluboká říční údolí jako objekt pro modelování vztahů vegetace a proměnných prostředí?

Univerzita Pardubice 8. licenční studium chemometrie

Vícerozměrné statistické metody

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Robust 2014, ledna 2014, Jetřichovice

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost, náhoda, kostky

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Statistická analýza jednorozměrných dat

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Simulace. Simulace dat. Parametry

Vícerozměrná analýza dat

Algoritmy pro shlukování prostorových dat

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Circular Harmonics. Tomáš Zámečník

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Pravděpodobnost a aplikovaná statistika

20. května Abstrakt V následujícím dokumentu je popsán způsob jakým analyzovat problém. výstřelu zasáhnout bod na zemi v definované vzdálenosti.

Numerické metody a programování. Lekce 8

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Vícerozměrná geometrická analýza dat

Vytyčení polohy bodu polární metodou

Vliv realizace, vliv přesnosti centrace a určení výšky přístroje a cíle na přesnost určovaných veličin

Vícerozměrné analýzy a jejich využití

Kontingenční tabulky, korelační koeficienty

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Pravděpodobnost, náhoda, kostky

Státní závěrečná zkouška z oboru Matematika a její použití v přírodních vědách

Vícerozměrné statistické metody

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Matematika pro geometrickou morfometrii

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

INDUKTIVNÍ STATISTIKA

6. Lineární regresní modely

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

ZPRACOVÁNÍ DAT V EKOLOGII

Metody zvýrazňování obrazu III. Vícepásmová zvýraznění. Spektrální příznaky. Příznakový prostor. Podstata vícepásmových zvýraznění

Odhalte skryté vazby v kategorizovaných datech

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Tomáš Karel LS 2012/2013

Transkript:

PCA BIPLOT ŠKÁLOVÁNÍ OS (1) 1 (sites) o zaměření na odlišnosti mezi lokalitami zachovány euklidovské vzdálenosti mezi vzorky úhly mezi šipkami neodpovídají kovariancím (korelacím) proměnných variance skóre lokalit na osách odpovídá eigenvalues os (množství zachycené variability) PC2-0.5 0.0 0.5 1.0 redox ph - focus on distances among cases v CANOCO - scale = "sites" (nebo 1) v R -1.5-1.0-0.5 0.0 0.5 PC1 1

PCA BIPLOT ŠKÁLOVÁNÍ OS (2) 2 (species) o zaměření na vztahy mezi proměnnými úhly mezi šipkami odpovídají kovariancím (korelacím) mezi proměnnými vzdálenosti mezi vzorky neodpovídají euklidovským vzdálenostem variance skóre lokalit na osách rovna 1 - focus on correlation among response variables v CANOCO - scale = species" (nebo 2) v R PC2-1.5-1.0-0.5 0.0 0.5 1.0 redox -2-1 0 1 PC1 ph 2

KORESPONDENČNÍ ANALÝZA CORRESPONDENCE ANALYSIS (CA) o založena na konceptu niky (Hutchinson 1957) druhy vykazují unimodální odpověď na ekologické gradienty, optima druhů stejně jako jejich niky se vzájemně liší CA hledá takové gradienty, na nichž se niky druhů maximálně separují o zachovává Χ 2 (chi kvadrát) vzdálenosti odráží rozdíly v relativním zasoupení druhů vážené celkovou početností nezohledňuje dvojité absence (double zeros) možné použít na přímá data početností nesmí být negativní hodnoty V ekologii CA zavedena Markem Hillem v roce 1973 pod názvem reciprocal averaging. 3

CA RECIPROCAL AVERAGING ALGORITMUS o stejný princip jako indikační hodnoty Ellenberg 1948, Zelinka & Marvan 1961, Sládeček 1986 indikační hodnoty vážené průměry rychlost proudu [ms -1 ] Microtendipes chloris Tvetenia calvescens loc1 0,2 20 0 loc2 0,4 9 1 loc3 0,6 1 5 loc4 0,8 0 24 0.27333*20 0.815*0 20 0 IV loc 1 0.27333*1 0.815*5 1 5 IV loc 3 0.27333 0.725 loc5 1,0 0 10 IV Micr IV Tvet 0.2*20 0.4*9 0.6*1 0.8*0 1.0*0 20 9 1 0 0 0.2*0 0.4*1 0.6*5 0.8*24 1.0*10 0 1 5 24 10 0.27333 0.815 4

CA RECIPROCAL AVERAGING ALGORITMUS 1. začni s arbitrárním (náhodným) skóre vzorků (x i ) 2. vypočti nové skóre pro jednotlivé druhy (species score, y i ) jako průměr skóre vzorků x i vážený abundancí druhu ve vzorcích 3. vypočti nové skóre pro jednotlivé vzorky (sample score, x i ) jako průměr skóre druhů y i vážený abundancí druhů ve vzorku 4. standardizuj skóre jednotlivých vzorků (natáhni osu) 5. pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2 Takto získáme skóre pro první osu. Pro další osy stejný postup, jen je přidán krok, který zajistí lineární nezávislost (ortogonalitu) os. 5

CA RECIPROCAL AVERAGING ALGORITMUS Lepš & Šmilauer (2003) Multivariate analysis of... 6

CA RECIPROCAL AVERAGING ALGORITMUS Lepš & Šmilauer (2003) Multivariate analysis of... 7

CA RECIPROCAL AVERAGING ALGORITMUS Lepš & Šmilauer (2003) Multivariate analysis of... 8

CA RECIPROCAL AVERAGING ALGORITMUS Lepš & Šmilauer (2003) Multivariate analysis of... 9

CA RECIPROCAL AVERAGING ALGORITMUS Lepš & Šmilauer (2003) Multivariate analysis of... 10

CA VIZUALIZACE 11

12

13

CA ŠKÁLOVÁNÍ o stejně jako u PCA 2 častá škálování 1 zaměřeno na vzorky, umístění vzorků odpovídá váženému průměru druhů, vzorky zachovává X 2 vzdálenosti mezi vzorky 2 zaměřeno na druhy, umístění druhů odpovídá váženému průměru vzorků, zachovává X 2 vzdálenosti mezi druhy 14

SIMULOVANÁ DATA JEDEN EKOLOGICKÝ GRADIENT o simulovaný gradient dlouhý 5000 jednotek o 300 druhů s unimodální odpovědí, různými šířkami nik o 500 vzorků náhodně rozmístěných podél gradientu 15

SIMULOVANÁ DATA ARTEFAKTY PCA - podkova CA - oblouk o vzorky + druhy 16

ARTEFAKTY V ORDINACÍCH PŘÍČINY o důsledek algoritmu (lineární nezávislost všech os) o důsledek projekce (nelineární vztahy mezi druhy -> lineární prostor) 17

ORDINAČNÍ DIAGRAMY lineární metoda unimodální metoda 18

ARTEFAKTY V ORDINACÍCH MOŽNOSTI ŘEŠENÍ o odstranění trendu z ordinačních os (detrending) detrendovaná korespondenční analýza, Detrended Correspondence Analysis (DCA, Hill & Gauch 1980) detrending by segments (nejčastější) detrending by polynomials (pokud v analýze používám kovariáty a je to stále potřeba) o použití takových ordinačních technik, které umožňují ordinaci vzorků v prostoru pomocí jiných metrik než je Euklidovská distance (PCA) nebo chikvadrát distance (CA) analýza hlavních koordinát, Principal Coordinate Analysis (PCoA) nemetrické mnohorozměrné škálování, Non-metric Multidimensional Scaling (NMDS) 19

DCA ODSTRANĚNÍ TRENDU (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 1 rozdělení první osy na několik segmentů Krok 2 vycentrování druhé osy každého segmentu kolem nuly 20

DCA ODSTRANĚNÍ TRENDU (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 3 nelineární přeškálování první osy Výsledek škálování: osy naškálované v jednotkách směrodatné odchylky (SD) celé druhové složení se obmění na 4 SD http://ordination.okstate.edu 21

DCA ROZDÍLNÉ VÝSLEDKY PŘI POUŽITÍ RŮZNÉHO POČTU DETRENDOVACÍCH SEGMENTŮ 5 segmentů 16 segmentů DCA, # segments = 5 DCA, # segments = 15 DCA2-2 -1 0 1 2 3 DCA2-2 -1 0 1 2-2 -1 0 1 2 3-2 -1 0 1 2 3 DCA1 26 segmentů 40 segmentů DCA, # segments = 26 DCA1 DCA, # segments = 40 DCA2-2 -1 0 1 2 DCA2-2 -1 0 1 2-2 -1 0 1 2 3 DCA1-2 -1 0 1 2 3 DCA1 22

DCA NA SIMULOVANÝCH DATECH (JEDEN GRADIENT) o vzorky + druhy 23

VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA LINEÁRNÍ NEBO UNIMODÁLNÍ? Pokud je délka 1. osy DCA o menší než 3 SD homogenní data - lineární metoda o větší než 4 SD heterogenní data - unimodální metoda o v rozmezí 3-4 SD obě techniky pracují rozumně Platí jen pro detrendování po segmentech a délku první osy! 24

VZÁCNÉ DRUHY o názor, že mají příliš velký vliv na výslednou ordinaci (Legendre and Gallagher 2001) o Greenacre (2013) naopak demonstruje, že příspěvek vzácných druhů k X 2 vzdálenostem je malý o downweighting rare species v CANOCO (nepříliš) sníží početnosti vzácných druhů vzácnost stanovena pomocí inverzního Simpsonova indexu o další možné řešení je postupně odstraňovat vzácné druhy a porovnat ordinace, eigenvalues a total inertia 25

PCOA PRINCIPAL COORDINATE ANALYSIS (analýza hlavních koordinát) o metoda založená na distancích mezi vzorky o vstupní data matice nepodobností mezi vzorky pokud zvolím Euklidovskou vzdálenost -> identické s PCA pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA o umístí objekty na základě jejich vzdáleností (distancí) do Euklidovského prostoru (tvořeného souřadnicemi skóre vzorků na osách) o použití nemetrických distancí může způsobit výskyt os se zápornou hodnotou eigenvalue o synonymum MDS (metric) MultiDimensional Scaling 26

PCOA PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY Vzdálenosti mezi městy (km) Stockholm Athens Barcelona Brussels... Athens 0 Barcelona 3313 0... Brussels 2963 1318 0... Calais 3175 1326 204... Cherbourg 3339 1294 583... Cologne 2762 1498 206... Copenhagen 3276 2218 966... Geneva 2610 803 677... Gibraltar 4485 1172 2256... Hamburg 2977 2018 597.................. PCoA2-1000 0 1000 Lisbon Gibraltar Madrid Copenhagen Hamburg Hook of Holland Calais Brussels Cologne Cherbourg Paris Munich Lyons Geneva Vienna Marseilles Milan Barcelona Rome Athens -2000-1000 0 1000 2000 PCoA1 27

NMDS - NON-METRIC MULTIDIMENSIONAL SCALING) NEMETRICKÉ VÍCEROZMĚRNÉ ŠKÁLOVÁNÍ o nemetrická varianta PCoA (nepracuje přímo s distancemi mezi vzorky, ale s jejich pořadím) o vstupní data matice nepodobností mezi vzorky o výpočet matice nepodobností jakýkoliv index nepodobnosti o iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima) o nutno určit počet dimenzí, se kterými bude metoda pracovat o při větším množství dat časově náročná o na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do několika málo (dvě tři) dimenzí 28

vzdálenost mezi vzorky v ordinačním diagramu NMDS SHEPARDŮV DIAGRAM Pro stress-value přibližně platí: < 0.05 vynikající < 0.1 výborný < 0.2 dobrý > 0.3 špatný (Clarke & Warwick 2001) nepodobnost mezi vzorky 29

POROVNÁNÍ METOD DCA A NMDS DCA NMDS při větším počtu vzorků tvoří trojúhelník nebo pěticípou hvězdu (artefakt) tradiční algoritmus má tendenci jakákoliv data zobrazit jako kouli 30

SIMULOVANÝ GRADIENT Abundance 0 50 100 150 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 ph 31

DCA, 20 segments SIMULOVANÝ GRADIENT CA2-1.5-1.0-0.5 0.0 0.5 1.0 1.5 CA 42 43 45 47 53 48 5455 51 40 44 46 4950 52 5657 58 59 39 61 67 41 62 38 60 65 31 68 34 64 69 35 3637 63 66 72 70 33 32 73 71 25 14 1 2 345 11 15 10 12 13 17 18 16 19 20 21 24 22 23 29 26 2728 30 75 76 78 77 74 7980 81 6789 83 85 84 90 87 89 82 86 91 97 88 93 94 92 95 96 100 98 99-2 -1 0 1 2 DCA2-3 -2-1 0 1 2 3 4 31 3839 40 44 41 42 43 45 46 4748 2 3 14 1516 678910 1112 13 18 19 522 2021 17 24 26 25 30 29 23 27 28 32 3334 353637 49 92 535455 51 88 93 94 95 50 56 52 58 59 61 57 8591 96 62 67 65 60 87 86 97 84 68 64 69 63 66 72 70 73 74 71 75 7879 76 77 81 80 90 83 82 89-4 -2 0 2 4 DCA1 100 98 99 CA1 DCA, 50 segments NMDS2-2 -1 0 1 2 2 3 NMDS 82 1 35 5 89 4 14 67 17 18 9 11 15 13 12 20 16 21 23 30 29 7071 24 19 22 26 25 27 33 10 28 36 37 63 68 34 31 65 3841 8 39 32 40 42 48 54 56 49 43 44 4546 52 50 59 60 64 66 69 72 73 76 75 77 78 79 83 81 74 80 90 84 879796 93 8586 9194 62 8895 98 99 100 58 57 61 92 53 4751 55 67 DCA2-3 -2-1 0 1 2 3 82 89 2 3 14 1516 678910 1112 13 18 19 522 2021 17 2425 2627 30 29 28 323334 353637 31 3839 404142 4443 4546 47 535455 48 4950 51 56 5258 5961 57 62 6768 60 6564 697273 71 76 77 63 66 70 75 78 79 8390 81 8084 8796 74 85 86 97 91 93 94 88 95 9298 100 99-4 -2 0 2 4-3 -2-1 0 1 2 3 NMDS1 DCA1 32