ZPRACOVÁNÍ DAT V EKOLOGII

Podobné dokumenty
ZPRACOVÁNÍ DAT V EKOLOGII

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Analýza dat na PC I.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Popisná statistika. Statistika pro sociology

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Úvodem Dříve les než stromy 3 Operace s maticemi

PCA BIPLOT ŠKÁLOVÁNÍ OS (1)

PŘÍKLADY POUŽITÍ ORDINAČNÍCH METOD

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pokročilé neparametrické metody. Klára Kubošová

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Popisná statistika. Komentované řešení pomocí MS Excel

6. Lineární regresní modely

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Cvičení 12: Binární logistická regrese

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

TRANSFORMACE CO TO JE?

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?


Korelační a regresní analýza

, Brno Hanuš Vavrčík Základy statistiky ve vědě

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Nejčastější chyby v explorační analýze

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

pravděpodobnosti, popisné statistiky

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistická analýza jednorozměrných dat

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Statistika pro geografy

Aplikovaná statistika v R

Plánování experimentu

Tomáš Karel LS 2012/2013

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Metodologie pro ISK II

Aplikovaná statistika v R - cvičení 3

5EN306 Aplikované kvantitativní metody I

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

5EN306 Aplikované kvantitativní metody I

INDEXY DIVERZITY. David Zelený Zpracování dat v ekologii společenstev

Regresní a korelační analýza

Informační technologie a statistika 1

Regresní a korelační analýza

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

STATISTICKÉ CHARAKTERISTIKY

Tabulka 1. Výběr z datové tabulky

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Tomáš Karel LS 2012/2013

Popisná statistika kvantitativní veličiny

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Průzkumová analýza dat

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

INDEXY DIVERZITY. David Zelený Zpracování dat v ekologii společenstev

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Základy popisné statistiky

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Základy pravděpodobnosti a statistiky. Popisná statistika

4. Zpracování číselných dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Kontingenční tabulky v Excelu. Představení programu Statistica

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Základní statistické charakteristiky

Statistická analýza. jednorozměrných dat

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Transkript:

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV VÍT SYROVÁTKA

OSNOVA PŘEDNÁŠKY o Příprava dat pro numerické analýzy typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA o Ekologická podobnost indexy podobnosti a vzdálenosti mezi vzorky o Ordinace lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy, rozklad variance, parciální analýza, příkladové studie o Klasifikace hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená o Použití druhových atributů v analýzách funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr o Indexy druhové bohatosti alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction o Design ekologických experimentů manipulativní experimenty vs. přírodní experimenty (pozorování) o Případové studie na použití jednotlivých metod 2

SOFTWARE o CANOCO 5 ordinační analýzy, diagramy, odpovědní křivky druhů o PC-ORD 5 klasifikace (ordinační analýzy), analýza indikátorových druhů, analýza odlehlých bodů o STATISTICA 12 korelace, ANOVA, regresní analýzy, klasifikace, ordinace o R vše, zadarmo + kvalitní grafika Kde co sehnat: R https://cran.r-project.org/bin/windows/ CANOCO 5 a PC-ORD 5 instalace z webových stránek předmětu (goo.gl/si2sw3, záložka Software) STATISTICA licenci je třeba získat po přihlášení na https://inet.muni.cz/app/soft/licence 3

LITERATURA V češtině o o Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO 5 (v roce 2014 vyšlo druhé vydání pro CANOCO 5) Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení V angličtině o Zuur A.F., Ieno E.N & Smith G.M. (2007) Analysing Ecological Data. Springer o Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. o Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier. Webové zdroje o David Zelený Analysis of community ecology data in R http://www.davidzeleny.net/anadatr/doku.php/en:start# o Jari Oksanen Community Analysis http://cc.oulu.fi/~jarioksa/opetus/metodi/ o Palmer M. Ordination methods for ecologists, website http://ordination.okstate.edu/ R friendly o Borcard D., Gillet F. & Legendre P. (2011) Numerical Ecology with R. Springer. 4

DALŠÍ INFORMACE o Webové stránky předmětu: goo.gl/si2sw3 přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení starší stránky Davida Zeleného http://www.davidzeleny.net/wiki/doku.php/zpradat:start o Cvičení probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) - blokové cvičení v R o Domácí úkol zadání bude sděleno v průběhu semestru o Zkouška vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) zhruba půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky 5

TYPY SBÍRANÝCH DAT EDA ÚPRAVA DAT PRO ANALÝZU

DATA V EKOLOGII SPOLEČENSTEV Společenstvo je soubor druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) o společenstvo je studovaná (závislá) proměnná (response variable) o společenstvo je vícerozměrná proměnná zaznamenána v matici (data matrix) o každý druh - jeho přítomnost nebo kvantita - představuje jeden rozměr společenstva o zaznamenaný vzorek společenstva je reprezentativní pro určitou plochu a daný čas (závislá, vícerozměná proměnná nemusí nutně být tvořena druhy: mohou to být např. proměnné prostředí, vlastnosti druhů, atd.) o prediktory (nezávislé proměnné) popisují najčastěji prostředí, zkoumáme jejich efekt na strukturu společenstva 7

USPOŘÁDÁNÍ DAT 1. druhová tabulka (matice) abundance, pokryvnosti, prezence/absence druhů 2. proměnné prostředí hodnoty naměřených proměnných prostředí 3. (geografické proměnné) souřadnice lokalit 4. (popisné proměnné) další proměnné popisující vzorkovací schéma, např. studovaná oblast, determinátor organismů, vzorkující, datum/období odběru... 8

TYPY PROMĚNNÝCH o Kategoriální (kvalitativní, nominální, prezenčně-absenční) např. substrát, půdní typy, geografická oblast binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) kategorie nelze smysluplně seřadit o Ordinální (semikvantitativní) např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi sousedními stupni jsou různě velké o Kvantitativní diskrétní (počty jedinců, měření s malou přesností), rozdíly mezi susedními stupni jsou stejně velké kontinuální (přesná měření) 9

ALTERNATIVNÍ DĚLENÍ PROMĚNNÝCH Typ proměnné binární (dvoustavová, 1/0) mnohostavová neseřazená (nominální) seřazená semikvantitativní (ordinální) kvantitativní (měření) diskontinuální (počty, diskrétní) kontinuální Příklady přítomnost nebo absence druhu, pohlaví typ substrátu stupnice pokryvností druhů počet jedinců teplota, hloubka půdy relativní stupnice (relative-scale) x intervalová stupnice (interval-scale) abundance, rychlost proudu C, směr větru, datum Legendre & Legendre 2012 10

KVANTITATIVNÍ VS. SEMIKVANTITATIVNÍ o kvantitativní sice přesnější o ale semikvantitativní rychlejší a levnější o trade-off mezi počtem vzorků a přesností o semikvantitativní často postačující 11

PRIMÁRNÍ DATA - SBĚR 12

PRIMÁRNÍ DATA PŘEPIS o tabulkový editor (spreadsheet) např. Microsoft Excel o přepisujeme co nejdřív zachycení chybějících dat v poznámkách se snáz orientujeme, po čase přestanou být srozumitelné dvě kopie je obtížnější ztratit nebo zničit přítomnost dat v počítači podpoří jejich rychlé zpracování o metadata data o datech jméno studie kdo a kde data sbíral, za jakým účelem popis experimentálních jednotek, objektů metodika sběru dat a měření (velmi oceníme při psaní práce) popis proměnných, jednotky popisy zkratek 13

PRIMÁRNÍ DATA SPREADSHEET o v řádcích studované objekty vzorky o v sloupcích proměnné, kterými objekty charakterizujeme druhy, proměnné prostředí vysvětlivky k proměnným 14

ZÁLOHA DAT o Uchování a zpřístupnění primárních dat problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin + laserová tiskárna) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze) 15

KONTROLA DAT o o o o chyby (errors) někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data opravit chybějící data (missing data, NA) možnosti jejich nahrazení (interpolace, model) vyloučení proměnné nebo vzorku který má hodně chybějících hodnot odlehlé body (outliers) EDA exploratory data analysis další úpravy: sjednocení taxonomické nomenklatury taxonomická adjustace někdy i vyloučení vzácných druhů (odstranění šumu v datech) 16

KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science) Konfirmační analýza dat (confirmatory data analysis, CDA) o testuje hypotézy a generuje odhady parametrů o např. regrese, ANOVA, testy signifikance Explorační analýza dat (exploratory data analysis, EDA) o průzkum dat a hledání hypotéz, které stojí za to testovat pomocí experimentů s dalšího sběru dat o slouží také k tzv. vytěžování dat (data mining, data dredging) o grafická EDA slouží k odhalení odlehlých bodů (outliers) prozkoumání rozložení hodnot (střední hodnota, rozsah, tvar) posouzení nutnosti transformace odhalení vztahů mezi proměnnými John Tukey (1915-2000) 17

DATA EXPLORATION o měla by zabrat 20% celkového času studie Proč EDA: o odhalení odlehlých bodů (outliers) o prozkoumání rozložení hodnot střední hodnota rozsah tvar rozložení (normalita, bimodalita, sešikmenost) o odhalení vztahů mezi proměnnými o posouzení nutnosti transformace 18

abundance Laeonereis acuta 0 50 100 150 KRABICOVÝ GRAF (BOXPLOT) Laeonereis acuta data ze Zuur et al. 2007 outlier (hodnota je vyšší než horní kvartil + 1.5 x interkvartilový rozsah, někdy ještě (STATISTICA) * kvartil + 3 x interkvartilový rozsah) maximální hodnota Q3 horní kvartil Q2 - medián Q1 spodní kvartil minimální hodnota 19

Frequency 0 5 10 15 20 25 HISTOGRAM 0 50 100 150 Laeonereis acuta 0 50 100 150 Laeonereis acuta 20

abundance Laeonereis acuta 0 50 100 150 KONDICIONÁLNÍ BOXPLOT zde outlier už není Laeonereis acuta outlier 1 2 3 Transekt 21

DOTCHART CLEVELAND DOTPLOT vzorky 4 3 2 1 0 50 100 150 Laeonereis acuta 22

KONDICIONÁLNÍ DOTCHART HODNOTY ZOBRAZENY VE SKUPINÁCH 1 Transekt 2 3 outlier, potenciální chybné měření 0 50 100 150 Laeonereis acuta 23

BODOVÝ GRAF (SCATTER PLOT) A. outlier z hlediska vztahu Y a X Y A B B. outlier z hlediska rozložení hodnot X i Y C. outlier z hlediska rozložení hodnot i vztahu Y a X X C 24

BODOVÝ GRAF (SCATTER PLOT) o dramatický vliv outlierů na výsledky analýz A C 25

Prec_anual 200 300 400 500 600 BODOVÝ GRAF (SCATTER PLOT) -6-4 -2 0 2 data z Altaje, Chytrý et al., in prep. T_anual 26

500 1500 2500-26 -22-6 -4-2 0 2 40 60 80 200 400 600 PÁROVÝ GRAF (PAIR PLOT) 40 60 80-26 -24-22 -20 Prec_anual 0.9 Prec_wetM 0.5 0.4 T_anual 0.6 0.5 1.0 T_min.cold -0.7-0.5-1.0-0.9 ALTITUDE 200 400 600-6 -4-2 0 2 500 1500 2500 27

Prec_anual 200 300 400 500 600 BODOVÝ GRAF (SCATTER PLOT) -6-4 -2 0 2 T_anual 28

20 40 60 80 Druhová bohatost richness cévnatých rostlin Forest 20 40 60 80 Mire Given : gr 20 40 60 80 Open COPLOT KONDICIONÁLNÍ BODOVÝ GRAF Given : Prec_anual 200 300 400 500-6 -4-2 0 2-6 -4-2 0 2-6 -4-2 0 2-6 -4-2 0 2-6 -4-2 0 2-6 -4-2 0 2 T_anual 29

CO S OUTLIERY? o automatické odstranění z datasetu špatně! o odstranění pouze když: data chybně zaznamenána nespadají do zamýšleného studovaného prostoru (sample space), např. v důsledku havárie čističky nad lokalitou, nebo louka rozježděna čtyřkolkami o některé body se jeví jako outliery jen proto, že je nutíme do normálního rozložení extrémy v datech z log-normálního nebo exponenciálního rozložení po transformaci krásně zapadnou mezi ostatní 30

x^2 0 20 40 60 80 100 x^0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 ln(x) -4-3 -2-1 0 1 2 TRANSFORMACE CO TO JE? o o o o o matematická funkce použitá na všechny původní hodnoty: Y* = f(y) f() kontinuální, monotónická, většinou jednoduchá funkce nemění pořadí hodnot mění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení pořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické testy) např. odmocnina, logaritmus x^2 x^0.5 ln(x) 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 x2 x2 x2 31

Počet druhů 15 20 25 30 Počet druhů 15 20 25 30 TRANSFORMACE PROČ? o o o o vyžaduje to statistika nenormálně rozložená data heterogenní variance (heteroscedasticity) ne vždy zcela objektivní, ale v literatuře běžný důvod - některé testy jsou platné jen při splnění předpokladů, že residua jsou normálně rozložena a mají homogenní varianci (variance nezávisí na průměru) přítomnost odlehlých hodnot linearizace vztahů lineární vztahy se lépe modelují a interpretují škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné 0 500 1000 1500 2000 2500 Počet jedinců 4 5 6 7 8 ln(počet jedinců) 32

Frequency 0 5 10 15 20 Frequency 0 2 4 6 8 TRANSFORMACE 0 500 1000 1500 2000 2500 4 5 6 7 8 0 500 1000 1500 2000 2500 3000 4 5 6 7 8 0 500 1000 1500 2000 2500 Počet jedinců 4 5 6 7 8 ln(počet jedinců) 33

NORMALITA DAT o mnohé testy hypotéz platné jen při splnění některých předpokladů o jeden z nich je normalita rozložení residuí o mylné a bezdůvodné testování normality prediktorů o ideální prediktor má rozložení uniformní četnost měření se nemění podél gradientu prediktoru Zuur et al. 2007 34

Vysvětlovaná proměnná (response) 10 11 12 13 RESIDUA LINEÁRNÍHO MODELU Fitované hodnoty Průměr vysvětlované proměnné Residuum Pozorované hodnoty 2 3 4 5 6 7 Vysvětlující proměnná (explanatory) 35

VÝBĚR TRANSFORMACE o tvar rozložení (sešikmenost skeweness) o vztah proměnných o rozsah hodnot (zahrnují nulu nebo negativní hodnoty?) Negativně (doleva) sešikmené rozložení (left-skewed) Symetrické pozitivně (doprava) sešikmené rozložení (right-skewed) 36

log(tvetenia discoloripes + 1) 0 1 2 3 4 Tvetenia discoloripes 0 20 40 60 80 120 ČASTÉ TRANSFORMACE o Logaritmická transformace (log transformation) pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed) lognormální rozložení běžné v ekologii - násobením sady nezávislých faktorů získáme lognormálně rozloženou proměnnou Y* = log (Y), případně Y* = log (a*y + c) 0.0 0.1 0.2 0.3 0.4 0.5 na základě logaritmu nezáleží (10, 2, e) konstanta a zabrání negativním hodnotám, pokud proměnná obsahuje = 1; pokud je Y z intervalu <0;1>, potom a > 1 pokud proměnná obsahuje nuly, musíme přičíst konstantu c c by měla být stejného řádu jako měřené hodnoty (např. 0,01 při hodnotách od 0,00 do 0,09), u abundancí to odpovídá 1 na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická Froudeho číslo 0.0 0.1 0.2 0.3 0.4 0.5 Froudeho číslo 37

LOGNORMÁLNÍ ROZLOŽENÍ x x x x x 0.4 0.6 0.8 1.0 1.2 1.4 0.4 0.6 0.8 1.0 1.2 0.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 1.2 1.4 x x x x = 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 1.2 0.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 Product log(product) 0.00 0.10 0.20 0.30-4 -3-2 -1 38

sqrt(y + 0.5) 1 2 3 4 sqrt(y + 3/8) 1 2 3 4 sqrt(y) 0 1 2 3 4 ODMOCNINOVÁ A MOCNINOVÁ TRANSFORMACE Odmocnina (square root) o na doprava sešikmené rozložení o slabší efekt než logaritmus Y * 1 1 2 Y Y případně * 2 Y ( Y c) ( Y c) 0 5 10 15 20 Y pokud jsou v datech nuly, je někdy vhodné přidat konstantu c c např. 0,5 (Sokal & Rohlf, 1995) nebo 3/8 (0,375) (Anscombe 1948) o o třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) vysoká odmocnina se blíží logaritmu Mocninná transformace (power transformation) o vhodná pro data negativně (doleva) sešikmená (left skewed) 0 5 10 15 20 Y * Y Y 2 p = 2, 3 pokud p < 1 - odmocninová transformace (p = 0,5 druhá odmocnina, p = 0,25 čtvrtá odmocnina atd.) 0 5 10 15 20 Y 39

PŘEHLED MOCNINNÝCH TRANSFORMACÍ Experience and experiment must guide the student (Abbott 1940) * Y Y p = -1 převrácená hodnota (reciprocal) 0 (výsledkem je 1), logaritmus je limitou funkce, pokud se p blíží 0 1/3 třetí odmocnina (cubic root) 1/2 druhá odmocnina (square root) 1 shodná hodnota 2 druhá mocnina (square) 3 třetí mocnina (cube) 4 čtvrtá mocnina... Box-Cox transformace pokud není a priori důvod pro jednu ze standardních transformací Y Y * * ( Y log e 1) / ( Y) p (pro λ 0) (pro λ = 0) λ (lambda) je zjištěna iterativně maximalizací log věrohodnostní funkce 40

1 Y 0 5 10 15 20 log Y 1 Y -4-2 0 2 4 arcsin Y 0.2 0.6 1.0 1.4 DALŠÍ TRANSFORMACE arcsin (angular transformation) o vhodná pro procentické hodnoty (a obecně podíly) Y* arcsin Y použitelná pro hodnoty v intervalu <-1; 1> jemně roztahuje hodnoty blízké 0 a 1 0.0 0.2 0.4 0.6 0.8 1.0 Y Logit o vhodná pro podíly stejně jako arcsin Y hodnoty od 0 do 1 Y* log 1 Y roztahuje hodnoty blízké 0 a 1 Reciproká transformace (reciprocal transformation) o vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) 1 roztahuje hodnoty blízké nule Y* Y otáčí interpretaci 0.0 0.2 0.4 0.6 0.8 1.0 Y 0.0 0.2 0.4 0.6 0.8 1.0 Y 41

Y maxy 0.0 0.4 0.8 Y miny maxy miny 0.0 0.4 0.8 STANDARDIZACE PROMĚNNÝCH (LINEÁRNÍ TRANSFORMACE) Centrování (centring) Y * i Y i Y Standardizace v úzkém slova smyslu * Yi Y Yi s výsledná proměnná má průměr roven nule Y ) n 1 dává vzniknout bezrozměrným Z-skóre výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné synchronizuje proměnné měřené v různých jednotkách a na různých stupnicích s n i 1 ( Y i 2 Změna rozsahu hodnot (ranging) * Yi * Yi min( Y) Yi Yi a) max( Y) b) max( Y) min( Y) výsledná proměnná je v rozsahu [0, 1] a) relativní škála (poměry mezi hodnotami zachované), b) obecná proměnná 0 2 4 6 8 10 Y 0 2 4 6 8 10 Y 42

STANDARDIZACE DRUHOVÉ MATICE o standardizace po druzích (standardization by species) dává stejnou váhu všem druhům zvýší váhu vzácných druhů a sníží váhu hojných ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu bude velmi odlišný od ostatních) vhodná zejména při analýze proměnných prostředí (odstraní se rozdíly v magnitudě a rozptylu proměnných) sp1 sp2 sp3 vzorek 1 1 3 4 vzorek 2 2 6 8 vzorek 3 10 30 40 průměr 4.333 13 17.33 sd 4.933 14.8 19.73 Y ij Y j sp1 sp2 sp3 vzorek 1-3.33-10 -13.33 vzorek 2-2.33-7 -9.333 vzorek 3 5.667 17 22.667 Y ij s j sp1 sp2 sp3 vzorek 1-0.68-0.68-0.68 vzorek 2-0.47-0.47-0.47 vzorek 3 1.149 1.149 1.149 43

Proměnná 2-20 -10 0 10 20 30 Proměnná 2-2 -1 0 1 2 STANDARDIZACE PROMĚNNÝCH vzdálenosti mezi vzorky ovládnou proměnné s velkou variancí po standardizaci mají všechny proměnné varianci shodnou Před standardizací Po standardizaci 40 50 60 70 80 90 100-2 -1 0 1 2 Proměnná 1 Proměnná 1 44

STANDARDIZACE DRUHOVÉ MATICE o standardizace po vzorcích (standardization by samples) pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné také v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet pastí nebo vliv špatného počasí na mobilitu živočichů) Původní hodnoty sp1 sp2 sp3 průměr sd vzorek 1 1 3 4 2.666 1.528 vzorek 2 2 6 8 5.333 3.055 vzorek 3 10 30 40 26.66 15.28 Výpočet hodnot v prvním sloupci (1-2.666)/1.528-1.09 (2-5.333)/3.055-1.09 (10-26.66)/15.28-1.09 Hodnoty standardizované po vzorcích sp1 sp2 sp3 vzorek 1-1.09 0.218 0.873 vzorek 2-1.09 0.218 0.873 vzorek 3-1.09 0.218 0.873 45

Species 2 0.0 0.5 1.0 DALŠÍ STANDARDIZACE (PŘES VZORKY) o Species profile relativní podíly abundancí o Hellingerova transformace modifikovaný species profile, lepší statistické vlastnosti Euklidovské vzdálenosti vypočítané na transformovaných datech vedou k Hellingerově vzdálenosti (viz další část) yij y' ij y o Tětivová transformace (chord transformation) y' ij i Euklidovské vzdálenosti vypočítané na transformovaných datech vedou k tětivové vzdálenosti (viz další část) y y ij i y' ij y p ij j 1 y 2 ij 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Species 1 46

TRANSFORMACE o matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) o nejčastější důvod je změnit tvar rozložení proměnné a zajistit homoskedasticitu STANDARDIZACE o mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) o nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) proměnných, druhů nebo vzorků o ve své podstatě je to další typ transformace 47

DUMMY VARIABLES převod kvalitativní (kategoriální) proměnné na kvantitativní (binární) pokud má kategoriální proměnná n stavů (kategorií), pro její vyjádření stačí n-1 dummy proměnných o potřeba v CANOCO 4.5 (v CANOCO 5 už ne) Sample Substrát další proměnné 1 bahno... 2 písek... Sample bahno písek vegetace další proměnné 1 1 0 0... 2 0 1 0... 3 1 0 0... 3 bahno... 4 vegetace... 5 vegetace... 6 bahno... 4 0 0 1... 5 0 0 1... 6 1 0 0... 48

KÓDOVÁNÍ DAT (DATA CODING) o např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance Braun-Blanquetova stupnice: r + 1 2 3 4 5 ordinální hodnoty*: 1 2 3 4 5 6 7 střední hodnoty procent**: 1 2 3 13 38 63 88 *) van der Maarel (2007), Table 1 **) Turboveg for Windows 2 49

METADATA o zaznamenat veškeré transformace, standardizace, kódování do metadat! 50