NUMERICKÁ KLASIFIKACE
http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172
http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 173
PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? http://www.existentialennui.com/ Knihovna Ústavu botaniky a zoologie, PřF MU v Brně. Knihy rozklasifikované podle velikosti hřbetu. 174
KLASIFIKACE O klasifikaci obecně platí: smyslem je najít diskontinuity v jinak kontinuální realitě, které můžeme pojmenovat například proto, abychom si usnadnili komunikaci cílem je seskupit podobné objekty (vzorky, druhy) do skupin, které jsou vnitřně homogenní, dobře popsatelné a zároveň dobře odlišitelné od ostatních skupin O klasifikaci ekologických dat platí: pokud analyzuji vzorky daná skupina obsahuje vzorky s podobným druhovým složením (např. podobná stanoviště) pokud analyzuji druhy daná skupina obsahuje druhy s podobným ekologickým chováním 175
KLASIFIKACE OBECNÉ ROZDĚLENÍ neřízená (unsupervised, bez učitele) cílem je vytvořit novou klasifikaci pomocí datového souboru výslednou klasifikaci můžeme ovlivnit pouze výběrem metody (kombinace klasifikačního algoritmu a míry podobnosti), případně požadovaného počtu shluků numerické metody klasifikace (cluster analysis, TWINSPAN) řízená (supervised, s učitelem) cílem je aplikovat již existující klasifikaci ( danou učitelem ) na datový soubor klasifikační systém musíme nejdříve naučit, jak má vypadat výsledná klasifikace (training), a systém ji pak reprodukuje na dalších vzorcích ANN artificial neural networks, klasifikační stromy, náhodné lesy (random forests), COCKTAIL 177
KLASIFIKACE OBECNÉ ROZDĚLENÍ subjektivní vs objektivní v době rozkvětu metod numerické klasifikace se věřilo, že numerické metody přinášejí klasifikaci založenou na objektivních kritériích, tedy tu která skutečně existuje (narozdíl od té subjektivní, která je výmyslem badatele ) všechny klasifikace jsou ale z principu subjektivní v případě, že Bůh není, pak není nikdo, kdo by řekl, která klasifikace je jediná správná neformalizovaná vs formalizovaná formalizovaná klasifikace je taková, která je provedena na základě jasných kritérií a díky tomu je možné ji znovu reprodukovat opakem je klasifikace založená na neformálních kritériích (například pocitu), kterou pak není snadné zopakovat 178
OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED TÍM, NEŽ ZAČNU NĚCO KLASIFIKOVAT Pro jaký účel klasifikaci dělám? chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí knihovničce) chci vytvořit obecný klasifikační systém, který bude použitelný i na další soubory (vytvořit knihovnický systém kategorizace knih, používaný i v jiných knihovnách) Podle jakých kritérií budu objekty klasifikovat? kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či méně podobné (knihy budu třídit podle obsahové podobnosti nebo např. podle velikosti) odpovídá výběru indexu podobnosti mezi vzorky Jak stanovím hranice mezi jednotlivými skupinami? pravidla, podle kterých budu přiřazovat objekty do skupin odpovídá výběru klasifikačního algoritmu 179
KLASIFIKACE klasifikační metody nehierarchické (K-means clustering) divisivní (TWINSPAN) hierarchické aglomerativní (klasická cluster analysis) 180
KLASIFIKACE klasifikační metody nehierarchické (K-means clustering) divisivní (TWINSPAN) hierarchické aglomerativní (klasická cluster analysis) 181
KLASIFIKACE HIERARCHICKÁ A AGLOMERATIVNÍ Shluková analýza (cluster analysis ) hierarchická metoda shluky jsou hierarchicky uspořádány aglomerativní metoda shluky jsou tvořeny odspodu, tzn. postupným shlukováním jednotlivých vzorků do větších skupin základní volby: míra nepodobnosti mezi vzorky (distance measure) shlukovací (klastrovací) algoritmus (clustering algorithm) 182
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) Výsledek shlukové analýzy je ovlivněn celou řadou rozhodnutí, které provádíme na různých úrovních zpracování dat sběr dat volba důležitostní hodnoty (pokryvnost, početnost) primární data transformace strandardizace míra nepodobnosti (Euklidovská, Bray-Curtis atd.) matice nepodobností výběr klastrovacího algoritmu (single linkage, complete linkage atd.) výsledná klasifikace 183
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY Metoda jednospojná (single linkage) páry vzorků seřazené podle podobností matice podobností Legendre & Legendre 1998 výsledný dendrogram 184
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY Metoda jednospojná (single linkage, nearest neighbour) vzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek přidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický Metoda všespojná (complete linkage, farthest neighbour) vzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje všechny podobné vzorky přidám se ke skupině ve které je ten, kdo je mi nejmíň nesympatický single linkage complete linkage 185
1 5 6 7 2 10 11 18 17 19 14 16 15 20 13 12 4 3 8 9 distance 0.0 0.5 1.0 1.5 2.0 2.5 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) DENDROGRAM záleží na tom, které vzorky jsou spojeny na které úrovni nezáleží na tom, který vzorek (skupina) je vpravo a který vlevo 186
5 6 7 6 7 4 3 2 10 5 15 20 10 4 3 11 18 8 9 13 12 15 20 16 2 11 18 8 9 16 13 12 14 19 14 1 1 17 17 19 METODA JEDNOSPOJNÁ VS VŠESPOJNÁ Bray-Curtis distance / Single linkage Bray-Curtis distance / Complete linkage metoda jednospojná se výrazně řetězí 187
15 20 6 7 11 18 5 7 10 6 16 5 11 18 15 20 13 12 10 4 3 2 14 16 14 17 19 13 12 2 9 8 3 8 17 19 4 9 1 1 METODA JEDNOSPOJNÁ VLIV TRANSFORMACE DRUHOVÝCH DAT Single linkage / Euclidean distance / no transformation Single linkage / Euclidean distance / LOG transformation transformace dat (např. logaritmická) může výrazně ovlivnit výsledný dendrogram v případě euklidovských vzdáleností a jednospojné metody obzvlášť 188
15 20 5 7 11 18 6 2 10 17 19 16 13 12 8 3 9 14 4 1 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY Average linkage (např. UPGMA) zahrnuje řadu metod, které stojí mezi single a complete linkage a v ekologii jsou smysluplnější UPGMA (unweighted pair-group method using arithmetic averages) vzorek se připojí ke shluku, ke kterému má největší (neváženou) průměrnou podobnost se všemi jeho vzorky přidám se ke skupině, ve které jsou mi všichni v průměru nejvíc sympatičtí Euclidean distance / UPGMA 189
11 18 2 10 6 5 7 17 19 16 15 20 13 12 8 3 14 9 4 1 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY Wardova metoda (Ward s minimum variance method) Euclidean distance / Ward's method ke shluku se připojí vzorek, jehož vzdálenost od centroidu shluku je nejmenší (počítáno přes čtverce vzdáleností mezi vzorky a centroidy shluků) neměla by se kombinovat se Sørensenovým (Bray-Curtis) indexem podobnosti 190
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) Flexible clustering (beta flexible) nastavení parametru β ovlivňuje řetězení dendrogramu nejvíc se řetězí pro β ~ 1, nejméně pro β = -1 SHLUKOVACÍ ALGORITMY optimální reprezentace vzdáleností mezi vzorky je při β = -0,25 Legendre & Legendre 1998 191
KLASIFIKACE klasifikační metody nehierarchické (K-means clustering) divisivní (TWINSPAN) hierarchické aglomerativní (klasická cluster analysis) 192
KLASIFIKACE HIERARCHICKÁ A DIVISIVNÍ TWINSPAN (Two Way INdicator Species ANalysis) divisivní metoda začíná dělením celého souboru vzorků a postupuje směrem dolů polytetická metoda každé dělení závisí na několika (indikačních) druzích (x monotetická metoda dělení ovlivňuje jediný druh) metoda velmi oblíbená mezi vegetačními ekology ale algoritmus je poměrně složitý, s řadou arbitrárních kroků, a proto má také řadu zarytých odpůrců vzorky jsou uspořádány podle první osy korespondenční analýzy (CA, DCA) a podle ní jsou rozděleny do dvou shluků (vzorky s pozitivním skóre a negativním skóre) metoda ošetří vzorky, které leží blízko středu osy, a které tak mají velkou pravděpodobnost, že budou špatně klasifikovány 193
KLASIFIKACE HIERARCHICKÁ A DIVISIVNÍ TWINSPAN (Two Way INdicator Species ANalysis) pseudospecies metoda primárně funguje pro kvalitativní data kvantitativní informace se dodává rozdělením druhů na pseudospecies podle abundance (cut levels) 194 Lepš & Šmilauer (2003)
KLASIFIKACE HIERARCHICKÁ A DIVISIVNÍ TWINSPAN (Two Way INdicator Species ANalysis) pseudospecies metoda primárně funguje pro kvalitativní data kvantitativní informace se dodává rozdělením druhů na pseudospecies podle abundance (cut levels) výsledkem je (mimo jiné) tabulka podobná fytocenologické snímky z určitých klastrů a druhy s vysokou fidelitou k dané skupině jsou seskupeny dohromady metoda vhodná v případě, že jsou data strukturovaná podle jednoho výrazného gradientu vhodné na hledání (několika málo) ekologicky interpretovatelných skupin v datech PC-ORD, JUICE 195
TWINSPAN 196
MODIFIKOVANÝ TWINSPAN (ROLEČEK ET AL. 2009) na rozdíl od původního algoritmu (a) umožňuje modifikovaný TWINSPAN (b) dopředu stanovit cílový počet skupin algoritmus se po každém dělení na dvě skupiny rozhoduje, kterou ze skupin bude dále dělit vybere tu, která je více heterogenní na základě její betadiverzity míru betadiverzity je nutné zvolit (např. Jaccardův index podobnosti) JUICE 197
KLASIFIKACE klasifikační metody nehierarchické (K-means clustering) divisivní (TWINSPAN) hierarchické aglomerativní (klasická cluster analysis) 198
KLASIFIKACE NEHIERARCHICKÁ K-means clustering (shlukování metodou K-průměrů) Legendre & Legendre 1998 nehierarchická metoda všechny shluky jsou si rovny analogie Wardovy metody - minimalizuje sumy čtverců vzdáleností vzorků od centroidů shluku na začátku uživatel zvolí počet shluků (k) iterativní metoda, začne od náhodného přiřazení vzorků do shluků, postupně přehazuje vzorky mezi shluky a hledá optimální řešení výsledek do určité míry záleží na počátečním rozmístění shluků do vzorků a je proto dobré proces mnohokrát zopakovat (najít stabilní řešení), protože metoda má tendenci nacházet lokální minima STATISTICA, SYN-TAX 2000, R 199
INTERPRETACE VÝSLEDKŮ NUMERICKÉ KLASIFIKACE promítnutí výsledků do ordinačního diagramu porovnání skupin na základě externích kritérií (např. měřených proměnných prostředí) porovnání skupin na základě druhového složení stanovení charakteristických druhů 200
PROMÍTNUTÍ VÝSLEDKŮ NUMERICKÉ KLASIFIKACE DO ORDINAČNÍHO DIAGRAMU DCA + TWINSPAN NMDS (Bray-Curtis) + TWINSPAN Je vhodné, aby míra nepodobnosti mezi vzorky byla v obou metodách (numerické klasifikaci i ordinační analýze) stejná (ze zvolených příkladů ten vlevo je vhodné řešení, vpravo nevhodné) 201 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007)
SILHOUETTE DIAGRAM hodnotí stupeň podobnosti daného vzorku ke klastru, do kterého byl zařazen, a srovnává ho s jeho podobností k nejbližšímu jinému klastru negativní hodnoty tyto vzorky byly s velkou pravděpodobností špatně klasifikovány (ve skutečnosti patří jinam) 202 Borcard et al. (2011) Numerical Ecology with R
HEAT MAP (intenzita barvy se zvyšuje s abundancí druhu ve vzorku) 203 Borcard et al. (2011) Numerical Ecology with R
HEAT MAP 204 Borcard et al. (2011) Numerical Ecology with R
205
STANOVENÍ DRUHŮ TYPICKÝCH PRO JEDNOTLIVÉ SHLUKY Analýza indikačních druhů (Dufrêne & Legendre 1997) - IndVal bere v potaz dva parametry: specificita kj = průměrná abundance druhu j uvnitř shluku k součet průměrných abundancí druhu j uvnitř ostatních shluků fidelita kj = počet vzorků ve shluku k obsahující druh j celkový počet vzorků ve shluku k IndVal kj = specificita kj * fidelita kj (pro druh j ve shluku k) IndVal j = max (IndVal kj ) (pro druh j celkově) možnost testování signifikance Monte-Carlo permutačním testem dostupné v PC-ORD 206
STANOVENÍ DRUHŮ TYPICKÝCH PRO JEDNOTLIVÉ SHLUKY Analýza indikačních druhů (Dufrêne & Legendre 1997) - IndVal (příklad z knihy Legendre & Legendre 2013) 207
STANOVENÍ DRUHŮ TYPICKÝCH PRO JEDNOTLIVÉ SHLUKY Fidelita (věrnost) druhu ke vzorku (Chytrý et al. 2002) Phi koeficient asociace (analogie Pearsonova korelačního koeficientu r) ϕ = (ad bc) / (a + b)(c + d)(a + c)(b + d) Počet vzorků ve shluku A mimo shluk A obsahující daný druh a b neobsahující daný druh c d rozsah <-1, 1>, 0 při shodné frekvenci uvnitř a vně shluku v JUICE možnost standardizace na velikost skupiny exaktní Fisherův test pro testování signifikance dostupné v programu JUICE 208
TESTOVÁNÍ PRŮKAZNOSTI A POUŽÍVÁNÍ HODNOTY P
ZÁKLADNÍ DEFINICE Hodnota P (P value) pravděpodobnost, že bychom získali stejně velkou nebo větší hodnotu testové statistiky za předpokladu platnosti nulové hypotézy čím menší je hodnota P, tím silnější je argument ukazující na neplatnost nulové hypotézy ale pozor vysoké hodnoty P nejsou důkazem, že nulová hypotéza je pravdivá! (např. pokud nemůžete najít statisticky signifikantní rozdíl mezi dvěma druhy, neznamená to, že můžete tvrdit, že oba druhy jsou stejné) V případě porovnání dvou výběrů (např. t-test) se hodnota P snižuje pokud se skutečný rozdíl mezi průměry výběrů zvýší snižuje se zvyšujícím se počtem opakování zvyšuje s variabilitou v datech 210
P HODNOTA DŮKAZ, KTERÝ EXISTUJE PROTI PLATNOSTI NULOVÉ HYPOTÉZY přesvědčivý středně silný P hodnota náznak důkazu, ale nepřesvědčivý máme důkaz proti platnosti nulové hypotézy? ne Ramsey & Schaffer (2002) 211
DOPORUČENÍ P hodnoty by měly být posuzovány jako důvěryhodnost důkazu, který máme proti platnosti nulové hypotézy (Dá se rozdílu věřit? Je důkaz důvěryhodný?) Neklást důraz na binární rozhodnutí (signifikantní vs nesignifikantní) Spolu s hodnotou P je třeba uvádět i tzv. velikost účinku (effect size), (např. R 2 u regrese, Pearsonův korelační koeficient r u korelace) Vhodné je testovaný vztah vizualizovat (boxploty pro porovnání výběrů, bodový diagram závislosti dvou proměnných aj.), a pokud není vztah z obrázku patrný, věc důkladně prošetřit (není třeba průkaznost způsobena výskytem jednoho odlehlého a vlivného pozorování?) Obecně platí, že k výsledkům by měly být dostupná i primární data (v elektronické podobě v příloze, případně na vyžádání), a detailní postup, jak byla analyzována (např. R skript). Sdílení dat a detailní popis metodiky je základem transparentního výzkumu a umožňuje zopakování analýz a případné odhalení chyb. 213