ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV



Podobné dokumenty
EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

ZPRACOVÁNÍ DAT V EKOLOGII

ZPRACOVÁNÍ DAT V EKOLOGII

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Analýza dat na PC I.

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

PCA BIPLOT ŠKÁLOVÁNÍ OS (1)

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Popisná statistika. Statistika pro sociology

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

INDEXY DIVERZITY. David Zelený Zpracování dat v ekologii společenstev

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Metodologie pro ISK II

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PŘÍKLADY POUŽITÍ ORDINAČNÍCH METOD

KORELACE. Komentované řešení pomocí programu Statistica

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úvodem Dříve les než stromy 3 Operace s maticemi

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Vícerozměrné statistické metody

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Průzkumová analýza dat

Popisná statistika. Komentované řešení pomocí MS Excel

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Statistika pro geografy

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Statistické testování hypotéz II


ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

INDEXY DIVERZITY. David Zelený Zpracování dat v ekologii společenstev

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

pravděpodobnosti, popisné statistiky

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

, Brno Hanuš Vavrčík Základy statistiky ve vědě

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Testy nezávislosti kardinálních veličin

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Korelační a regresní analýza

Aplikovaná statistika v R

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Aplikovaná statistika v R - cvičení 3

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

6. Lineární regresní modely

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Regresní a korelační analýza

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Tabulka 1. Výběr z datové tabulky

5EN306 Aplikované kvantitativní metody I

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

4. Zpracování číselných dat

Korelace. Komentované řešení pomocí MS Excel

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Metodologie pro Informační studia a knihovnictví 2

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Regresní a korelační analýza

Pokročilé neparametrické metody. Klára Kubošová

STATISTICKÉ CHARAKTERISTIKY

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Manuál pro zaokrouhlování

Kalibrace a limity její přesnosti

Nejčastější chyby v explorační analýze

Regresní analýza. Eva Jarošová

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Cvičná bakalářská zkouška, 1. varianta

Transkript:

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

OSNOVA PŘEDNÁŠKY Typy sbíraných dat kategoriální vs kvantitativní, pokryvnosti, frekvence Příprava dat pro numerické analýzy čištění dat, odlehlé body, transformace, standardizace, EDA Ekologická podobnost indexy podobnosti a vzdálenosti mezi vzorky Ordinace lineární vs unimodální, přímá vs nepřímá Klasifikace hierarchická vs nehierarchická, aglomerativní vs divisivní Regrese, kalibrace lineární regrese, Ellenbergovy indikační hodnoty Indexy druhové bohatosti alfa, beta a gamma diverzita, akumulační druhová křivka, rarefaction Design ekologických experimentů manipulativní experimenty vs přírodní experimenty (pozorování) Případové studie na použití jednotlivých metod 2

LITERATURA Doporučená (najdete na bit.ly/zpradat v sekci Studijní materiály) Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení Pro fajnšmekry Wildi O. (2010) Data Analysis in Vegetation Ecology. Wiley-Blackwell. Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes. http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf Palmer M. Ordination methods for ecologists, website http://ordination.okstate.edu/ Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier. 3

SOFTWARE CANOCO 5 ordinační analýzy, kreslení ordinačních diagramů a odpovědních křivek druhů PC-ORD 5 numerické klasifikace, ordinační analýzy, analýza odlehlých bodů STATISTICA 12 regresní analýzy, klasifikace, ordinace Kde co sehnat: CANOCO 5 a PC-ORD instalace z webových stránek předmětu (http://bit.ly/zpradat, záložka Software) STATISTICA licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software 4

DALŠÍ INFORMACE Webové stránky předmětu: www.bit.ly/zpradat přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení Cvičení probíhat bude v počítačové učebně v druhé půlce semestru a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) Domácí úkol dobrovolný, zadání bude sděleno v průběhu semestru Zkouška vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky možné dělat zároveň se zkouškou z předmětu Bi7550 5

TYPY SBÍRANÝCH DAT PŘÍPRAVA DAT PRO ANALÝZY

DATA V EKOLOGII SPOLEČENSTEV popisují společenstvo, případně i jeho prostředí Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) ekologická data obsahují více proměnných (multivariate data) a dají se vyjádřit maticí dat (data matrix) společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů 7

TYPY PROMĚNNÝCH Kategoriální (kvalitativní, nominální, prezenčně-absenční) např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit Ordinální (semikvantitativní) např. Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké Kvantitativní diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) relativní stupnice (relative-scale) x intervalová stupnice (interval-scale) 0 30 0 relativní stupnice nula znamená, že charakteristika chybí intervalová stupnice nula je stanovena arbitrárně 8

TYPY PROMĚNNÝCH ALTERNATIVNÍ TŘÍDĚNÍ Typ proměnné binární (dvoustavový, presence-absence) mnohostavový neseřazený seřazený semikvantitativní (ordinální) kvantitativní (měření) diskontinuální (počty, diskrétní) kontinuální Příklady přítomnost nebo absence druhu geologický substrát stupnice pokryvností druhy počet jedinců teplota, hloubka půdy Legendre & Legendre 1998 9

PRIMÁRNÍ DATA 10

PRIMÁRNÍ DATA 11

http://www.cggveritas.com/data//1/rec_i mgs/5152_tapes-small.jpg PRIMÁRNÍ DATA Zadávání primárních dat spreadsheet, metadata Uchování a zpřístupnění primárních dat problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze) Kontrola a čištění dat sloučení taxonomické nomenklatury chyby a chybějící data (možnosti nahrazení chybějících dat) analýza odlehlých bodů (outlier analysis) někdy i vyloučení vzácných druhů (odstranění šumu v datech) EDA exploratory data analysis 12

Programátorka Madeleine Carey s 60.000 děrnými štítky, na kterých byl uložen program využívaný americkou leteckou obranou. Zdroj: Failures to Compute, Science 342 (6160) 800-801 13

KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science) Konfirmační analýza dat (confirmatory data analysis, CDA) testuje hypotézy a generuje odhady parametrů např. regrese, ANOVA, testy signifikance Explorační analýza dat (exploratory data analysis, EDA) průzkum dat a hledání hypotéz, které stojí za to testovat slouží také k tzv. vytěžování dat (data mining, data dredging) grafická EDA slouží k odhalení odlehlých bodů (outlier analysis) distribuce dat (normalita) a nutnost transformace John Tukey (1915-2000) 14

EDA EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ BOX-PLOT & HISTOGRAM XERSSW Frequency -8-6 -4-2 0 2 4 50 40 30 20 Median 25%-75% Range Outliers 10 0-8 -7-6 -5-4 -3-2 -1 0 1 2 3 4 XERSSW (head index) 15

EDA EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT 3 2 1 0 XERSSW -1-2 -3-4 -5-6 -7-3 -2-1 0 1 2 3 4 5 6 XERSW XERSSW 3.0 2.5 2.0 1.5 1.0 0.5 0.0-0.5-1.0-3 -2-1 0 1 2 3 4 5 XERSW 16

DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT) Klasický boxplot (střední hodnota = medián) maximální hodnota Q3 horní kvartil Q2 - medián Q1 spodní kvartil minimální hodnota Definice odlehlých bodů a extrémů (STATISTICA) 17 outlier (hodnota nižší než spodní kvartil a interkvartilový rozsah)

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Transformace dat mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce Proč data transformovat? protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné deset prstů => používání desítkové soustavy protože (některé) statistické testy vyžadují, aby data byla normálně rozložená (normal distribution) měla homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah) protože lineární vztahy se interpretují lépe než vztahy nelineární 18

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Na co si dát při transformaci pozor? aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body abychom při komentování výsledků používali netransformované hodnoty proměnných Typy transformace lineární přičtení konstanty nebo vynásobení konstantou nemění výsledky statistického testování nulových hypotéz např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita nelineární log transformace, odmocninová transformace atd. může změnit výsledky statistického testování 19

0 50 100 150 200 0 50 100 150 200 0 100 200 300 400 500 600 700 ROZDĚLENÍ DAT (DATA DISTRIBUTION) symetrické (symetrical) 0 2 4 6 8 10 12 pozitivně (doprava) zešikmené* (right skewed) negativně (doleva) zešikmené (left skewed) -3-2 -1 0 1 2 3-8 -6-4 -2 0 2 * ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku 20

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE zdroj: wikipedia.org Logaritmická transformace (log transformation) pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení) Y* = log (Y), případně Y* = log (a*y + c) na základě logaritmu nezáleží (10, 2, e) konstanta a = 1; pokud je Y z intervalu <0;1>, potom a > 1 konstanta c se přidává, pokud proměnná Y obsahuje nuly c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická 21

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Odmocninová transformace (square-root transformation) vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) Y* = Y, případně Y* = (Y + c) konstanta c se přičítá, pokud soubor obsahuje nuly c může být např. 0,5, nebo 3/8 (0,325) třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) Mocninná transformace (power transformation) vhodná pro data negativně (doleva) sešikmená (left skewed) Y* = Y p pokud p < 1 - odmocninová transformace (p = 0,5 druhá odmocnina, p = 0,25 čtvrtá odmocnina atd.) 22

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE logaritmická odmocninová Legendre & Legendre (1998) 23

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE 24 Münch. Med. Wschr. 124, 1982

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Transformace pomocí arcsin (angular transformation) vhodná pro procentické hodnoty (a obecně podíly) Y* = arcsin Y nebo Y* = arcsin Y použitelná pro hodnoty v intervalu <-1; 1> transformované hodnoty jsou v radiánech Reciproká transformace (reciprocal transformation) vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y 25

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Box-Cox transformace (zobecněná mocniná transformace) zobecněná parametrická transformace iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení používá se v případě, že nemáme a priori představu, jakou transformaci použít Neparametrické metody transformace např. metoda Omnibus pro ordinální data Legendre & Legendre 1998 26

MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA Histogram s křivkou normálního rozdělení Počet pozorování 35 30 25 20 15 10 5 0-10 0 10 20 30 40 50 60 70 80 Soil depth vizuální zhodnocení normality dat Kolmogorovův-Smirnovův test Q-Q diagram (Quantile-Quantile plot) Oček. normál. hodnoty 3 2 1 0-1 -2-3 -10 0 10 20 30 40 50 60 70 Pozorovaný kvantil porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení rankitový diagram) na stejném principu pracuje Shapiro-Wilk test 27

Theoretical quantiles -3-2 -1 0 1 2 3 Theoretical quantiles -3-2 -1 0 1 2 3 Theoretical quantiles -3-2 -1 0 1 2 3 Frequency 0 50 100 150 200 Frequency 0 100 200 300 400 500 600 Frequency 0 50 100 150 200 MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA normální rozdělení pozitivně zešikmené negativně zešikmené -3-2 -1 0 1 2 3 variable 0 2 4 6 8 10 12 variable -8-6 -4-2 0 2 variable -3-2 -1 0 1 2 3 Sample quantiles 0 5 10 15 20 Sample quantiles -5-4 -3-2 -1 0 1 Sample quantiles 28

Soil ph 6.0 6.5 7.0 7.5 8.0 Soil ph 6.0 6.5 7.0 7.5 8.0 Frequency 0 5 10 15 20 Frequency 0 5 10 15 20 BIMODÁLNÍ DATA transformace nepomůže, možnost rozdělit na dva podsoubory 6.0 6.5 7.0 7.5 8.0 Soil ph 6.0 6.5 7.0 7.5 8.0 Soil ph 29 600 650 700 750 800 850 900 950 Annual precipitation [mm] 600 650 700 750 800 850 900 950 Annual precipitation [mm]

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE PROMĚNNÝCH Centrování výsledná proměnná má průměr roven nule Y i * = Y i průměr (Y) Standardizace v úzkém slova smyslu výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné synchronizuje proměnné měřené v různých jednotkách a na různých stupnicích Y i * = (Y i průměr (Y)) / směrodatná odchylka (Y) Změna rozsahu hodnot (ranging) výsledná proměnná je v rozsahu 0 až 1 Y i * = Y i / Y max nebo Y i * = (Y i Y min ) / (Y max Y min ) 30

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA Standardizace v případě matice společenstva (vzorky x druhy) standardizace po druzích (by species) dává velkou váhu vzácným druhům ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu) standardizace po vzorcích (by samples) pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše nebo počet pastí) 31

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA původní matice Druhy Vzorky druh 1 druh 2 druh 3 vzorek 1 1 3 5 vzorek 2 2 6 10 vzorek 3 10 30 50 standardizace po druzích standardizace po vzorcích Druhy Druhy Vzorky druh 1 druh 2 druh 3 Vzorky druh 1 druh 2 druh 3 vzorek 1-0.68-0.68-0.68 vzorek 1-1 0 1 vzorek 2-0.47-0.47-0.47 vzorek 2-1 0 1 vzorek 3 1.15 1.15 1.15 vzorek 3-1 0 1 32

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu STANDARDIZACE mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků ve své podstatě je to další typ transformace 33

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING) Dummy variables metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) hodnoty dummy proměnné KAMB LITO RANK FLUVI kambizem 1 0 0 0 litozem 0 1 0 0 ranker 0 0 1 0 fluvizem 0 0 0 1 34

PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING) např. nahrazení kódů u alfa-numerických stupnic, např. Braun- Blanquetovy stupnice dominance-abundance Br.-Bl.: r + 1 2 3 4 5 ordinální hodnoty: 1 2 3 4 5 6 7 střední hodnoty procent: 1 2 3 15 38 63 88 35

SOUBORY S VELKÝM POČTEM NUL (ANEB VÝZNAM NULY V EKOLOGII) dva možné významy nuly: 1. hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) 2. hodnota je skutečná nula například absence druhu data obsahující pravé nuly obsahují dva typy informace: 1. druh chybí nebo je přítomen? 2. pokud je druh přítomen, jaká je jeho abundance? v datech obsahujících velké množství pravých nul je většina informace prvního typu problém pravých nul při logaritmické transformaci soubor s velkým počtem pravých nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) 36

vzorky Zastoupení nul v matici [%] 97.0 97.5 98.0 98.5 99.0 MATICE VZORKY DRUHY V EKOLOGII SPOLEČENSTEV (SPARSE MATRIX, ŘÍDKÁ MATICE) více než 90% hodnot tvoří nuly, u velkých souborů až 99% 100 2000 4000 6000 8000 Počet vegetačních snímků v matici 37 druhy

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE)

EKOLOGICKÁ PODOBNOST jedinec společenstvo jedinci stejného druhu 39

EKOLOGICKÁ PODOBNOST 40

EKOLOGICKÁ PODOBNOST 41

EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA Druhy Vzorky druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 vztahy mezi vzorky Q analýza vztahy mezi druhy (nebo obecně mezi deskriptory) R analýza 42

PODOBNOSTI X VZDÁLENOSTI (Q ANALÝZA) Indexy podobnosti slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace) nejnižší hodnota 0 vzorky nesdílejí žádný druh nejvyšší hodnota (1 nebo jiná) vzorky jsou identické Vzdálenosti mezi vzorky slouží k umístění vzorků v mnohorozměrném prostoru nejnižší hodnota 0 vzorky jsou identické (ve stejné lokaci) hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky 43

INDEXY PODOBNOSTI kvalitativní vs kvantitativní kvalitativní pro presenčně-absenční data kvantitativní pro data vyjadřující abundance, počty aj. symetrické vs asymetrické dvojité nepřítomnosti ( double-zero ) počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích symetrické dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají asymetrické dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii 44

PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS) Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: vzorky leží mimo ekologickou niku druhu nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné) vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože se tam nedostal (dispersal limitation) jsme ho přehlédli a nezaznamenali (sampling bias) nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty) 45

vlhkomilný druh 1 vlhkomilný druh 2 mezický druh 1 mezický druh 2 suchomilný druh 1 suchomilný druh 2 PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS) vzorek 1 1 1 0 0 0 0 vzorek 2 0 1 1 1 1 0 vzorek 3 0 0 0 0 1 1 vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště vzorek 1 je nejvlhčí, vzorek 3 nejsušší vzorek 1 a 3 neobsahují ani jeden mezický druh vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3 asymetrické indexy: dvojité nepřítomnosti budou ignorovány 46

INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA druh je ve vzorku č. 1 a počet druhů přítomných v obou vzorcích b, c počet druhů přítomných jen v jednom vzorku přítomen d počet druhů, které chybí v obou vzorcích ( double zeros ) nepřítomen ve vzorku č. 2 přítomen a b Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu nepřítomen c d c a b 47 vzorek č. 1 vzorek č. 2

INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA Jaccardův koeficient J = a / (a + b + c) Sørensenův koeficient S = 2a / (2a + b + c) přítomnosti druhu v obou vzorcích (a) přisuzuje dvojnásobnou váhu Simpsonův koeficient Si = a / [a + min (b,c)] vhodný pro vzorky velmi odlišné počtem druhů c a b 48 vzorek č. 1 vzorek č. 2

INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA zobecněný Sørensenův koeficient (procentická podobnost, percentage similarity) PS = [2 Σ min (x i, y i )] / Σ (x i + y i ) x i, y i... kvantita i-tého druhu ve srovnávaných vzorcích má rozsah od 0 do 1 pro presenčně absenční data přechází v 2a / (2a + b + c) velmi vhodný pro ekologická data percentage dissimilarity (PD, Bray-Curtis index) = 1 PS 49

VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES) všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance D = 1 S, nebo D = (1 S) kde D je vzdálenost (distance) a S je podobnost (similarity) odmocninový převod se používá například pro Sørensenův koeficient neplatí obráceně (ne všechny vzdálenosti se dají převést na podobnosti např. Euklidovská vzdálenost) 50

VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES) Euklidovská vzdálenost (Euclidean distance) ED = Σ (x i y i ) 2 rozsah: od 0 (identické vzorky), horní mez není dána rozsah hodnot výrazně záleží na použitých jednotkách míra citlivá na odlehlé body - nevhodná pro ekologická data tětivová vzdálenost (chord distance, relativized Euclidean distance) Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) rozsah: od 0 (identické vzorky) do 2 (vzorky nesdílí žádný druh) Chi-kvadrát vzdálenost (chi-square distance) málokdy se používá přímo na výpočet vzdálenosti mezi vzorky vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA) 51

EUKLIDOVSKÁ VZDÁLENOST PARADOX může se stát, že dva vzorky, které sdílí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2) Vzorky Druhy druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 1,732 4,243 Eucl (vzorek 1, vzorek 2) = (0-1) 2 + (1-0) 2 + (1-0) 2 = 1,732 Eucl (vzorek 1, vzorek 3) = (0-0) 2 + (1-4) 2 + (1-4) 2 = 4,243 52

INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA) V kolika vzorcích je... druh č. 1 přítomen nepřítomen druh č. 2 přítomen a b nepřítomen c d Diceův index Dice = 2a / (2a + b + c) stejný jako Sørensenův index pro podobnost mezi vzorky uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948) Pearsonův korelační koeficient r není vhodný pro data s velkým počtem nul, ani po transformaci 53

MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO DRUHY) je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3. a 2. snímkem) diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze jedničky (matice podobností) 1 2 3 4 5 6 7 8 9 10 1 0 12.37 11.70 17.92 13.86 10.58 11.92 10.54 13.82 15.59 2 12.37 0 11.14 13.34 16.58 13.96 9.64 13.56 13.64 13.42 3 11.70 11.14 0 14.42 16.16 11.53 10.34 13.71 14.90 13.78 4 17.92 13.34 14.42 0 18.36 15.78 9.64 17.03 14.42 7.48 5 13.86 16.58 16.16 18.36 0 13.71 14.49 9.00 14.04 15.46 6 10.58 13.96 11.53 15.78 13.71 0 11.31 11.87 10.54 12.85 7 11.92 9.64 10.34 9.64 14.49 11.31 0 13.82 12.77 9.43 8 10.54 13.56 13.71 17.03 9.00 11.87 13.82 0 10.95 14.35 9 13.82 13.64 14.90 14.42 14.04 10.54 12.77 10.95 0 10.39 10 15.59 13.42 13.78 7.48 15.46 12.85 9.43 14.35 10.39 0 matice Euklidovských vzdáleností mezi 10 vzorky 54