ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Rozměr: px
Začít zobrazení ze stránky:

Download "ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV"

Transkript

1 ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

2 OSNOVA PŘEDNÁŠKY Příprava dat pro numerické analýzy typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA Ekologická podobnost indexy podobnosti a vzdálenosti mezi vzorky Ordinace lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy, rozklad variance, parciální analýza, příkladové studie Klasifikace hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená Použití druhových atributů v analýzách funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr, čtvrtý roh Indexy druhové bohatosti alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction Design ekologických experimentů manipulativní experimenty vs. přírodní experimenty (pozorování) Případové studie na použití jednotlivých metod 2

3 LITERATURA Doporučená (najdete na bit.ly/zpradat v sekci Studijní materiály) Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO (v roce 2014 vyšlo druhé vydání pro CANOCO 5) Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení Pro fajnšmekry Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes. Palmer M. Ordination methods for ecologists, website Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier. 3

4 SOFTWARE CANOCO 5 ordinační analýzy, kreslení ordinačních diagramů a odpovědních křivek druhů PC-ORD 5 numerické klasifikace, ordinační analýzy, analýza odlehlých bodů STATISTICA 12 korelace, ANOVA, regresní analýzy, klasifikace, ordinace Kde co sehnat: CANOCO 5 a PC-ORD 5 instalace z webových stránek předmětu (http://bit.ly/zpradat, záložka Software) STATISTICA licenci je třeba získat po přihlášení na v sekci Nabídka software 4

5 DALŠÍ INFORMACE Webové stránky předmětu: přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení Cvičení probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) Domácí úkol zadání bude sděleno v průběhu semestru Zkouška vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky možné dělat zároveň se zkouškou z předmětu Bi7550 5

6 TYPY SBÍRANÝCH DAT PŘÍPRAVA DAT PRO ANALÝZY

7 DATA V EKOLOGII SPOLEČENSTEV popisují společenstvo, případně i jeho prostředí Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) ekologická data obsahují více proměnných (multivariate data) a dají se vyjádřit maticí dat (data matrix) společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů 7

8 TYPY PROMĚNNÝCH Kategoriální (kvalitativní, nominální, prezenčně-absenční) např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit Ordinální (semikvantitativní) např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké Kvantitativní diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) relativní stupnice (relative-scale) x intervalová stupnice (interval-scale) 0 30 relativní stupnice (relative scale) nula znamená, že charakteristika chybí 0 intervalová stupnice (interval scale) nula je stanovena arbitrárně 8

9 TYPY PROMĚNNÝCH ALTERNATIVNÍ TŘÍDĚNÍ Typ proměnné binární (dvoustavový, presence-absence) mnohostavový neseřazený seřazený semikvantitativní (ordinální) kvantitativní (měření) diskontinuální (počty, diskrétní) kontinuální Příklady přítomnost nebo absence druhu geologický substrát stupnice pokryvností druhy počet jedinců teplota, hloubka půdy Legendre & Legendre

10 PRIMÁRNÍ DATA 10

11 PRIMÁRNÍ DATA 11

12 mgs/5152_tapes-small.jpg PRIMÁRNÍ DATA Zadávání primárních dat spreadsheet, metadata Uchování a zpřístupnění primárních dat problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin + laserová tiskárna) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository, nebo databázích (např. Česká Národní Fytocenologická Databáze) 12 Programátorka Madeleine Carey s děrnými štítky, na kterých byl uložen program využívaný americkou leteckou obranou. Zdroj: Science 2013

13 PRIMÁRNÍ DATA Kontrola a čištění dat chyby (errors) někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data z analýzy odstranit chybějící data (missing data, NA) možnosti jejich nahrazení (interpolace, model) vyloučení proměnné nebo vzorku který má hodně chybějících hodnot odlehlé body (outliers) jejich detekce (outlier analysis) EDA exploratory data analysis další úpravy: sloučení taxonomické nomenklatury někdy i vyloučení vzácných druhů (odstranění šumu v datech) 13

14 KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science) Konfirmační analýza dat (confirmatory data analysis, CDA) testuje hypotézy a generuje odhady parametrů např. regrese, ANOVA, testy signifikance Explorační analýza dat (exploratory data analysis, EDA) průzkum dat a hledání hypotéz, které stojí za to testovat slouží také k tzv. vytěžování dat (data mining, data dredging) grafická EDA slouží k odhalení odlehlých bodů (outlier analysis) distribuce dat (normalita) a nutnost transformace John Tukey ( ) 14

15 EDA EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ BOX-PLOT & HISTOGRAM XERSSW potenciálně chybná hodnota Frequency Median 25%-75% Range Outliers XERSSW (head index) 15

16 DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT) Klasický boxplot (střední hodnota = medián) maximální hodnota Q3 horní kvartil Q2 - medián Q1 spodní kvartil minimální hodnota Definice odlehlých bodů a extrémů (STATISTICA) 16 outlier (hodnota nižší než spodní kvartil x interkvartilový rozsah)

17 EDA EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT příliš vlivný vzorek XERSSW XERSW XERSSW XERSW 17

18 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Transformace dat mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce Proč data transformovat? protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné deset prstů => používání desítkové soustavy protože (některé) statistické testy vyžadují, aby residuály měly přibližně normální rozložení (normal distribution) homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah) protože lineární vztahy se interpretují lépe než vztahy nelineární 18

19 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Na co si dát při transformaci pozor? aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body abychom při komentování výsledků používali netransformované hodnoty proměnných Typy transformace lineární přičtení konstanty nebo vynásobení konstantou nemění výsledky statistického testování nulových hypotéz např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita nelineární log transformace, odmocninová transformace atd. může změnit výsledky statistického testování 19

20 ROZDĚLENÍ DAT (DATA DISTRIBUTION) symetrické (symetrical) pozitivně (doprava) zešikmené* (right skewed) negativně (doleva) zešikmené (left skewed) * ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku 20

21 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE zdroj: wikipedia.org Logaritmická transformace (log transformation) pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení) Y* = log (Y), případně Y* = log (a*y + c) na základě logaritmu nezáleží (10, 2, e) konstanta a = 1; pokud je Y z intervalu <0;1>, potom a > 1 konstanta c se přidává, pokud proměnná Y obsahuje nuly c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická 21

22 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Odmocninová transformace (square-root transformation) vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) Y* = Y, případně Y* = (Y + c) konstanta c se přičítá, pokud soubor obsahuje nuly c může být např. 0,5, nebo 3/8 (0,325) třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) Mocninná transformace (power transformation) vhodná pro data negativně (doleva) sešikmená (left skewed) Y* = Y p pokud p < 1 - odmocninová transformace (p = 0,5 druhá odmocnina, p = 0,25 čtvrtá odmocnina atd.) 22

23 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE logaritmická odmocninová Legendre & Legendre (1998) 23

24 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE 24 Münch. Med. Wschr. 124, 1982

25 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Transformace pomocí arcsin (angular transformation) vhodná pro procentické hodnoty (a obecně podíly) Y* = arcsin Y nebo Y* = arcsin Y použitelná pro hodnoty v intervalu <-1; 1> transformované hodnoty jsou v radiánech Reciproká transformace (reciprocal transformation) vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y 25

26 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE Box-Cox transformace (zobecněná mocniná transformace) zobecněná parametrická transformace iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení používá se v případě, že nemáme a priori představu, jakou transformaci použít Neparametrické metody transformace např. metoda Omnibus pro ordinální data Legendre & Legendre

27 MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA Histogram s křivkou normálního rozdělení Počet pozorování Soil depth vizuální zhodnocení normality dat Kolmogorovův-Smirnovův test Q-Q diagram (Quantile-Quantile plot) Oček. normál. hodnoty Pozorovaný kvantil porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení rankitový diagram) na stejném principu pracuje Shapiro-Wilk test 27

28 Theoretical quantiles Theoretical quantiles Theoretical quantiles Frequency Frequency Frequency MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA normální rozdělení pozitivně zešikmené negativně zešikmené variable variable variable Sample quantiles Sample quantiles Sample quantiles 28

29 Soil ph Soil ph Frequency Frequency BIMODÁLNÍ DATA transformace nepomůže, možnost rozdělit na dva podsoubory Soil ph Soil ph Annual precipitation [mm] Annual precipitation [mm]

30 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE JEDNOTLIVÝCH PROMĚNNÝCH Centrování (centring) výsledná proměnná má průměr roven nule Y i * = Y i průměr (Y) Standardizace v úzkém slova smyslu výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné synchronizuje proměnné měřené v různých jednotkách a na různých stupnicích Y i * = (Y i průměr (Y)) / směrodatná odchylka (Y) Změna rozsahu hodnot (ranging) výsledná proměnná je v rozsahu [0, 1] (a) Y i * = Y i / Y max nebo (b) Y i * = (Y i Y min ) / (Y max Y min ) a - proměnná na relativní škále (začíná nulou), b - obecná proměnná 30

31 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA Standardizace v případě matice společenstva (vzorky x druhy) standardizace po druzích (standardization by species) dává velkou váhu vzácným druhům ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu bude velmi odlišný od ostatních) standardizace po vzorcích (standardization by samples) pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet pastí nebo vliv špatného počasí na mobilitu živočichů) 31

32 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA původní matice Druhy Vzorky druh 1 druh 2 druh 3 vzorek vzorek vzorek standardizace po druzích standardizace po vzorcích Druhy Druhy Vzorky druh 1 druh 2 druh 3 Vzorky druh 1 druh 2 druh 3 vzorek vzorek vzorek vzorek vzorek vzorek

33 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu STANDARDIZACE mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků ve své podstatě je to další typ transformace 33

34 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING) Dummy variables metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) hodnoty dummy proměnné KAMB LITO RANK FLUVI kambizem litozem ranker fluvizem

35 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING) např. nahrazení kódů u alfa-numerických stupnic, např. Braun- Blanquetovy stupnice dominance-abundance Braun-Blanquetova stupnice: r ordinální hodnoty*: střední hodnoty procent**: *) van der Maarel (2007), Table 1 **) Turboveg for Windows 2 35

36 SOUBORY S VELKÝM POČTEM NUL (ANEB VÝZNAM NULY V EKOLOGII) dva možné významy nuly: 1. hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) 2. hodnota je skutečná nula například absence druhu data obsahující pravé nuly obsahují dva typy informace: 1. druh chybí nebo je přítomen? 2. pokud je druh přítomen, jaká je jeho abundance? v datech obsahujících velké množství pravých nul je většina informace prvního typu problém pravých nul při logaritmické transformaci soubor s velkým počtem pravých nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) 36

37 vzorky Zastoupení nul v matici [%] MATICE VZORKY DRUHY V EKOLOGII SPOLEČENSTEV (SPARSE MATRIX, ŘÍDKÁ MATICE) více než 90% hodnot tvoří nuly, u velkých souborů až 99% Počet vegetačních snímků v matici 37 druhy

38 EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE)

39 EKOLOGICKÁ PODOBNOST jedinec společenstvo jedinci stejného druhu 39

40 EKOLOGICKÁ PODOBNOST 40

41 EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA Druhy Vzorky druh 1 druh 2 druh 3 vzorek vzorek vzorek vztahy mezi vzorky Q analýza vztahy mezi druhy (nebo obecně mezi deskriptory) R analýza 41

42 PODOBNOSTI X VZDÁLENOSTI (Q ANALÝZA) Indexy podobnosti (similarity coefficients) slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace) nejnižší hodnota 0 vzorky nesdílejí žádný druh nejvyšší hodnota (1 nebo jiná) vzorky jsou identické Vzdálenosti mezi vzorky (distance coefficients) slouží k umístění vzorků v mnohorozměrném prostoru nejnižší hodnota 0 vzorky jsou identické (ve stejné lokaci) hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky 42

43 INDEXY PODOBNOSTI (SIMILARITY COEFFICIENTS) kvalitativní vs kvantitativní kvalitativní pro presenčně-absenční data kvantitativní pro data vyjadřující abundance, počty aj. symetrické vs asymetrické dvojité nepřítomnosti ( double-zero ) počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích symetrické dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají asymetrické dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii 43

44 PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS) Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: vzorky leží mimo ekologickou niku druhu nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné) vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože se tam nedostal (dispersal limitation) jsme ho přehlédli a nezaznamenali (sampling bias) nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty) 44

45 vlhkomilný druh 1 vlhkomilný druh 2 mezický druh 1 mezický druh 2 suchomilný druh 1 suchomilný druh 2 PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS PROBLEM) vzorek vzorek vzorek vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště vzorek 1 je nejvlhčí, vzorek 3 nejsušší vzorek 1 a 3 neobsahují ani jeden mezický druh vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3 asymetrické indexy: dvojité nepřítomnosti budou ignorovány 45

46 INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA druh je ve vzorku č. 1 a počet druhů přítomných v obou vzorcích b, c počet druhů přítomných jen v jednom vzorku přítomen d počet druhů, které chybí v obou vzorcích ( double zeros ) nepřítomen ve vzorku č. 2 přítomen a b Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu nepřítomen c d c a b 46 vzorek č. 1 vzorek č. 2

47 INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA Jaccardův koeficient J = a / (a + b + c) Sørensenův koeficient S = 2a / (2a + b + c) přítomnosti druhu v obou vzorcích (frakce [a]) přisuzuje dvojnásobnou váhu na rozdíl od Jaccarda je semimetrický Simpsonův koeficient Si = a / [a + min (b,c)] vhodný pro vzorky velmi odlišné počtem druhů c a b 47 vzorek č. 1 vzorek č. 2

48 INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA zobecněný Sørensenův koeficient (procentická podobnost, percentage similarity) PS = [2 Σ min (x i, y i )] / Σ (x i + y i ) x i, y i... kvantita i-tého druhu ve srovnávaných vzorcích má rozsah od 0 do 1 pro presenčně absenční data přechází v 2a / (2a + b + c) velmi vhodný pro ekologická data percentage dissimilarity (PD, Bray-Curtis index) = 1 PS 48

49 VZDÁLENOSTI MEZI VZORKY (DISTANCE COEFFICIENTS) všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance D = 1 S, nebo D = (1 S) kde D je vzdálenost (distance) a S je podobnost (similarity) odmocninový převod se používá například pro Sørensenův koeficient neplatí obráceně - ne všechny vzdálenosti se dají převést na podobnosti (např. Euklidovská vzdálenost) 49

50 VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES) Euklidovská vzdálenost (Euclidean distance) ED = Σ (x i y i ) 2 rozsah: od 0 (identické vzorky), horní mez není dána rozsah hodnot výrazně záleží na použitých jednotkách míra citlivá na odlehlé body - nevhodná pro ekologická data symetrická míra vzdálenosti trpí problémem dvojitých nul tětivová vzdálenost (chord distance, relativized Euclidean distance) Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) rozsah: od 0 (identické vzorky) do 2 (vzorky nesdílí žádný druh) Hellingerova vzdálenost (Hellinger distance) možno vypočíst jako Euklidovská vzdálenost aplikovaná na data po aplikaci Hellingerovy standardizace netrpí problémem dvojitých nul Chi-kvadrát vzdálenost (chi-square distance) málokdy se používá přímo na výpočet vzdálenosti mezi vzorky vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA) 50

51 EUKLIDOVSKÁ VZDÁLENOST PARADOX PŘI POUŽITÍ ABUNDANČNÍCH DAT při použití abundančních dat se může stát, že dva vzorky, které sdílí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2) Vzorky Druhy druh 1 druh 2 druh 3 vzorek vzorek vzorek ,732 4,243 Eucl (vzorek 1, vzorek 2) = (0-1) 2 + (1-0) 2 + (1-0) 2 = 1,732 Eucl (vzorek 1, vzorek 3) = (0-0) 2 + (1-4) 2 + (1-4) 2 = 4,243 51

52 INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA) V kolika vzorcích je... druh č. 1 přítomen nepřítomen druh č. 2 přítomen a b nepřítomen c d Diceův index Dice = 2a / (2a + b + c) stejný jako Sørensenův index pro podobnost mezi vzorky uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948) Pearsonův korelační koeficient r není vhodný pro data s velkým počtem nul, ani po transformaci 52

53 MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO DRUHY) je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3. a 2. snímkem) diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze jedničky (matice podobností) matice Euklidovských vzdáleností mezi 10 vzorky 53

54 ORDINAČNÍ ANALÝZA

55 KONCEPCE MNOHOROZMĚRNÉHO PROSTORU Prostor může být definován: druhy (species space) vzorky (sample space) 55 Zuur et al. (2007)

56 ORDINACE RŮZNÉ FORMULACE PROBLÉMU 1) najdi skryté gradienty v druhovém složení (ordinační osy) 2) rozmísti vzorky v zobrazitelném prostoru (ordinační prostor) 56

57 vzorky vzorky vzorky NEPŘÍMÁ VS PŘÍMÁ ORDINACE UNCONSTRAINED VS CONSTRAINED ORD. Nepřímá ordinace pouze druhová matice druhy ordinační osy směry největší variability dat popisu dat a generování hypotéz Přímá ordinace druhová matice a matice proměnných prostředí ordinační osy variabilita dat vztažená k daným proměnným druhová matice druhy druhová matice + proměnné prostředí matice proměnných prostředí testování hypotéz 57

58 abundance abundance MODELY ODPOVĚDI DRUHŮ NA GRADIENT PROSTŘEDÍ lineární unimodální gradient gradient 58

59 abundance druhu abundance druhu LINEÁRNÍ MODEL ODPOVĚDI DRUHU JEN PŘI KRÁTKÉM EKOLOGICKÉM GRADIENTU krátký ekologický gradient dlouhý ekologický gradient gradient prostředí (ph, nadm. výška) gradient prostředí (ph, nadm. výška) 59 Lepš & Šmilauer (2003) Multivariate analysis of...

60 PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) linear (lineární) unimodal (unimodální) transformationbased (založené na transformovaných primárních datech) distancebased (založené na distanční matici) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-pca (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-rda (redundanční analýza na transformovaných primárních datech) db-rda (redundanční analýza založená na distanční matici) 62

61 NEPŘÍMÁ ORDINAČNÍ ANALÝZA

62 PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) linear (lineární) unimodal (unimodální) transformationbased (založené na transformovaných primárních datech) distancebased (založené na distanční matici) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-pca (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-rda (redundanční analýza na transformovaných primárních datech) db-rda (redundanční analýza založená na distanční matici) 64

63 NEPŘÍMÁ ORDINACE PRINCIP hledání skryté proměnné (gradientu), který nejlépe reprezentuje chování všech druhů podél tohoto gradientu první ordinační osa (ordination axis) a skóre vzorků na této ordinační ose (sample scores) odhad optima (odpovědi) jednotlivých druhů na této ose (species scores) druhá a vyšší ordinační osy musejí být lineárně nezávislé na všech nižších ordinačních osách 65

64 sp2 PCA PRINCIP VÝPOČTU (Principal Component Analysis, analýza hlavních komponent) sp1 sp2 samp1 2 1 samp4 samp2 3 4 samp3 5 0 samp4 7 6 samp5 9 2 a) rozmístění vzorků v prostoru definovaném druhy b) výpočet těžiště shluku c) centrování os d) rotace os samp2 samp1 samp3 sp1 samp5 66 Legendre & Legendre (1998)

65 PCA PRINCIP VÝPOČTU (Principal Component Analysis, analýza hlavních komponent) 3D 2D 67

66 Příklad: rozeznávání písmen v analýze obrazu pomocí PCA a11 a12 a13 a14 a15 a21 a22 a23 a24 a25 a31 a32 a33 a34 a35 a41 a42 a43 a44 a45 a51 a52 a53 a54 a55 A B C D E F X Y Z Inspired by work of François Labelle (http://www.cs.mcgill.ca/~sqrt/dimr/dimreduction.html)

67 PCA1 (O-X) PCA2 (H-I) vztah proměnných A11 a A12 výsledek PCA (1. a 2. PCA osa) 69

68 PCA1 (O-X) PCA2 (H-I) vztah proměnných A11 a A12 výsledek PCA (1. a 2. PCA osa) 70

69 PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 PC15 PC16 PC17 PC18 PC19 PC20 PC21 PC22 PC23 PC24 % variation KTERÉ OSY PCA JSOU DŮLEŽITÉ? Summary Table: Statistic Axis 1 Axis 2 Axis 3 Axis 4 Axis 5 Axis 6 Axis 7 Axis 8... Axis 23 Axis 24 Eigenvalues Explained variation (cumulative) % eigenvalue Broken stick model 0 71

70 PODSTATA MODELU ZLOMENÉ HOLE (BROKEN-STICK MODEL) hůl hůl se po pádu na zem rozpadne na 6 různě dlouhých částí 72

71 vektory = deskriptory body = vzorky PCA: circle of equilibrium contribution (kruh rovnovážného příspěvku proměnné) poloměr = d/p kde d = počet os v zobrazení, p = počet všech os v PCA (rovno počtu deskriptorů) Interpretace: deskriptory (druhy n. jiné proměnné) s vektory delšími než poloměr kruhu výrazně přispívají k interpretaci daných ordinačních os (v tomto případě první a druhé) Legendre P. & Legendre L. (2012) Numerical Ecology, p

72 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) 5 výpočetních kroků 1. začni s arbitrárním (náhodným) skóre vzorků (x i ) 2. vypočti nové skóre pro jednotlivé druhy (species score, y i ) jako průměr skóre vzorků x i vážený abundancí druhu ve vzorcích 3. vypočti nové skóre pro jednotlivé vzorky (sample score, x i ) jako průměr skóre druhů y i vážený abundancí druhů ve vzorku 4. standardizuj skóre jednotlivých vzorků (natáhni osu) 5. pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2 74

73 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) 75 Lepš & Šmilauer (2003) Multivariate analysis of...

74 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) 76 Lepš & Šmilauer (2003) Multivariate analysis of...

75 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) 77 Lepš & Šmilauer (2003) Multivariate analysis of...

76 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) 78 Lepš & Šmilauer (2003) Multivariate analysis of...

77 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) 79 Lepš & Šmilauer (2003) Multivariate analysis of...

78 CA2 CA2 CA2 CA2 CA1 CA1 náhodné rozložení bodů na začátku iterativního procesu pravidelné rozložení bodů na konci procesu CA1 CA1 80

79 SIMULOVANÁ DATA JEDEN EKOLOGICKÝ GRADIENT simulovaný gradient dlouhý 5000 jednotek 300 druhů s unimodální odpovědí, různými šířkami nik 500 vzorků náhodně rozmístěných podél gradientu 81

80 SIMULOVANÁ DATA ARTEFAKTY PCA - podkova CA - oblouk o vzorky + druhy 82

81 ARTEFAKTY V ORDINACÍCH PŘÍČINY důsledek algoritmu (lineární nezávislost všech os) důsledek projekce (nelineární vztahy mezi druhy -> lineární prostor) 83

82 ORDINAČNÍ DIAGRAMY lineární metoda unimodální metoda 84

83 DCA PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 1 rozdělení první osy na několik segmentů Krok 2 vycentrování druhé osy každého segmentu kolem nuly 86

84 DCA PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 3 nelineární přeškálování první osy Výsledek škálování: osy naškálované v jednotkách směrodatné odchylky (SD) celé druhové složení se obmění na 4 SD 87

85 CA DCA ROZDÍL MEZI CA A DCA NA STEJNÝCH DATECH CA DCA CA1 DCA1 Animace: 88

86 DCA DCA DCA DCA DCA ROZDÍLNÉ VÝSLEDKY PŘI POUŽITÍ RŮZNÉHO POČTU DETRENDOVACÍCH SEGMENTŮ 5 segmentů 16 segmentů DCA, # segments = 5 DCA, # segments = DCA1 DCA1 26 segmentů 40 segmentů DCA, # segments = 26 DCA, # segments = DCA DCA1

87 DCA NA SIMULOVANÝCH DATECH (JEDEN GRADIENT) o vzorky + druhy 90

88 VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA LINEÁRNÍ NEBO UNIMODÁLNÍ? Pokud je délka 1. osy DCA menší než 3 SD homogenní data - lineární metoda větší než 4 SD heterogenní data - unimodální metoda v rozmezí 3-4 SD obě techniky pracují rozumně Platí jen pro detrendování po segmentech a délku první osy! 91

89 92

90 TŘI ALTERNATIVNÍ PŘÍSTUPY K NEPŘÍMÉ ORDINAČNÍ ANALÝZE (a) Klasický přístup (b) Transformace dat (např. Hellingerova) (tb-pca) (c) Přes matici nepodobností (PCoA, NMDS) 93 Legendre & Legendre (2012)

91 PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) linear (lineární) unimodal (unimodální) transformationbased (založené na transformovaných primárních datech) distancebased (založené na distanční matici) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-pca (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-rda (redundanční analýza na transformovaných primárních datech) db-rda (redundanční analýza založená na distanční matici) 94

92 PCOA PRINCIPAL COORDINATE ANALYSIS (analýza hlavních koordinát) metoda založená na distancích mezi vzorky vstupní data matice nepodobností mezi vzorky pokud zvolím Euklidovskou vzdálenost -> identické s PCA pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA umístí objekty na základě jejich vzdáleností (distancí) do Euklidovského prostoru (tvořeného souřadnicemi skóre vzorků na osách) použití nemetrických distancí může způsobit výskyt os ze zápornou hodnotou eigenvalue synonymum MDS Metric Dimensional Scaling 95

93 PCoA PCOA PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY Vzdálenosti mezi městy (km) Stockholm Athens Barcelona Brussels... Athens 0 Barcelona Brussels Calais Cherbourg Cologne Copenhagen Geneva Gibraltar Hamburg Lisbon Gibraltar Madrid Copenhagen Hamburg Hook of Holland Calais Brussels Cologne Cherbourg Paris Munich Lyons Geneva Vienna Marseilles Milan Barcelona Rome Athens PCoA1 96

94 PCoA PCOA PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY Stockholm Lisbon Gibraltar Madrid Copenhagen Hamburg Hook of Holland Calais Brussels Cologne Cherbourg Paris Munich Lyons Geneva Vienna Marseilles Milan Barcelona Rome Athens PCoA1 97

95 NMDS - NON-METRIC MULTIDIMENSIONAL SCALING) ORDINACE ZALOŽENÁ NA DISTANCÍCH nemetrická varianta PCoA (nepracuje přímo s distancemi mezi vzorky, ale s jejich pořadím) vstupní data matice nepodobností mezi vzorky výpočet matice nepodobností jakýkoliv index nepodobnosti iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima) nutno určit počet dimenzí, se kterými bude metoda pracovat při větším množství dat VELMI časově náročná na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do několika málo (dvě tři) dimenzí 98

96 NMDS NON-METRIC MULTIDIMENSIONAL SCALING náhodné rozmístění vzorků v prostoru rozmístění vzorků v prostoru respektuje jejich nepodobnost 99

97 NMDS Rothkopfův experiment s morseovkou 598 účastníkům byly přehrány všechny dvojice kódů a pokaždé měli rozhodnout, jestli jsou shodné nebo jiné matice nepodobností = počet odpovědí různé Ukázka datového souboru (kódy A,B,C,D,E): NMDS1 100

98 vzdálenost mezi vzorky v ordinačním diagramu NMDS SHEPARDŮV DIAGRAM stress-value = 0.18 Pro stress-value přibližně platí: < 0.05 vynikající < 0.1 výborný < 0.2 dobrý > 0.3 špatný (Clarke & Warwick 2001) nepodobnost mezi vzorky 101

99 POROVNÁNÍ METOD DCA A NMDS DCA NMDS 102 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007)

100 POROVNÁNÍ METOD DCA A NMDS DCA NMDS při větším počtu vzorků tvoří trojúhelník nebo pěticípou hvězdu (artefakt) má tendenci jakákoliv data zobrazit jako kouli 103

101 POROVNÁNÍ METOD DCA A NMDS SIMULOVANÁ DATA (JEDEN GRADIENT) DCA NMDS o vzorky + druhy 104

102 Gradient 2 (kratší) SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY Gradient 1 (delší) 105

103 SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY DCA NMDS PCA CA 106

104 SIMULOVANÁ DATA DVA STEJNĚ DLOUHÉ GRADIENTY DCA NMDS PCA CA 107

105 SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY krátké gradienty dlouhé gradienty 108

106 vzorky POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI ordinační osy vzorky DVA ALTERNATIVNÍ POSTUPY vzorky vzorky druhy druhy nepřímé srovnání korelace, regrese přímé srovnání přímá ordinace proměnné prostředí proměnné prostředí matice: Y druhové složení X proměnné prostředí oba přístupy jsou relevantní a navzájem se doplňují! 109 Legendre & Legendre (1998)

107 PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI KORELACE (REGRESE) S ORDINAČNÍMI OSAMI 110

108 PCA2 PH SOILDPT spe1 spe2 spe3 spe4... PCA 1 PCA 2 PH SOILDPT Korelace proměnných prostředí s ordinačními osami v nepřímé ordinaci (PCA) matice druhových dat skóre vzorků na první a druhé ose PCA proměnné prostředí sam1... PCA sam1 korelace sam1 sam2... sam2 sam2 sam3... sam3 sam3 sam4... sam4 sam PCA1 r 2 PCA 1 r 1 r 3 r 1 PCA 2 r 2 r 4 ordinační diagram PCA vztah proměnných prostředí (vektory) a ordinačních os korelace proměnných prostředí a ordinačních os 111

109 Náhodně generované proměnné (rand 1 až rand 9) pasivně promítnuté do ordinačního diagramu: náhodné proměnné reálné proměnné Data o druhovém složení: vegetace údolí Vltavy Analýza: NMDS s Bray-Curtis distancí rand 1 rand 9: náhodně generované proměnné ELEVATION, SOILDPT, - reálně měřené proměnné prostředí 112

110 PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI KORELACE (REGRESE) S ORDINAČNÍMI OSAMI Korelace mezi proměnnou prostředí a skóre vzorků na ordinačních osách pouze v ordinacích kde jsou skóre vzorků standardizované na jednotkovou varianci (PCA) v ostatních ordinacích, kde se variance os od sebe liší, je třeba použít (váženou) mnohonásobnou regresi: env ~ b0 + b1 * score1 + b2 * score2 b0 = 0 (všechny proměnné jsou centrované) b1, b2 regresní koeficienty 113

111 Možnost otestovat signifikanci vztahu proměnných prostředí k ordinačním osám náhodné proměnné reálné proměnné NMDS1 NMDS2 r2 Pr(>r) rand rand rand rand rand rand rand rand rand NMDS1 NMDS2 r2 Pr(>r) ELEVATION *** SLOPE *** ASPSSW *** HEAT.LOAD ** SURFSL *** SURFIS FLUVISOL *** SOILDPT *** ph *** (výstup z funkce envfit v knihovně vegan, testující regresi ordinačních os na proměnné prostředí) 114

112 PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI NELINEÁRNÍ VZTAH ZOBRAZENÝ JAKO VRSTEVNICE Data o druhovém složení: vegetace údolí Vltavy Analýza: DCA na log transformovaných datech ph měřené půdní ph vrstevnice jsou výsledkem GAM modelu 115

113 PŘÍMÁ ORDINAČNÍ ANALÝZA

114 PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) linear (lineární) unimodal (unimodální) transformationbased (založené na transformovaných primárních datech) distancebased (založené na distanční matici) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-pca (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-rda (redundanční analýza na transformovaných primárních datech) db-rda (redundanční analýza založená na distanční matici) 117

115 species 1 (residual) env 1 env spe 1 spe 2 spe 3 species species 1 (predicted) spe 1 spe 2 spe spe 1 spe 2 spe 3 PRINCIP PŘÍMÉ ORDINAČNÍ ANALÝZY (RDA) matice vzorky druhy sam 1 sam 2 sam 3 sam 4 sam 5 sam 6 regrese abundance druhu na proměnné prostředí predikované hodnoty gradient sam 1 sam 2 sam 3 sam 4 sam 5 sam 6 sam 7 sam 7 sam 1 sam 2 sam gradient residuály sam 1 sam 2 sam 3 sam 4 sam 5 sam 4 sam 6 sam 5 sam 6 sam 7 matice s vysvětlujícími proměnnými gradient sam 7

116 spe 1 spe 2 spe 3 PCA2 RDA2 spe 1 spe 2 spe 3 Princip přímé ordinační analýzy - pokračování matice predikovaných hodnot ordinační osy s omezením (constrained axes) sam 1 sam 2 sam 3 sam 4 sam 5 sam 6 sam 7 PCA ordinace RDA1 počet ordinačních os s omezením = počet vysvětlujících proměnných (pokud je vysvětlující proměnná kategoriální, počet os je roven počtu kategorií minus 1) sam 1 sam 2 sam 3 PCA ordinace sam 4 sam 5 sam 6 sam 7 matice residuálů PCA1 ordinační osy bez omezení (unconstrained axes) 119

117 Nepřímá a přímá ordinační analýza PCA a RDA na datech z Vltavy (log + Hellinger) Method: PCA with supplementary variables Total variation is , supplementary variables account for 7.8% (adjusted explained variation is 5.8%) Summary Table: Statistic Axis 1 Axis 2 Axis 3 Axis 4 Eigenvalues Explained variation (cumulative) Pseudo-canonical correlation (suppl.) (modře označená pole v PCA se objeví jen pokud jsou do analýzy přidány pasivní proměnné prostředí a ukazují, kolik by tyto proměnné vysvětlily v přímé ordinační analýze) Method: RDA Total variation is , explanatory variables account for 7.8% (adjusted explained variation is 5.8%) Summary Table: Statistic Axis 1 Axis 2 Axis 3 Axis 4 Eigenvalues Explained variation (cumulative) Pseudo-canonical correlation Explained fitted variation (cumulative) Permutation Test Results: On All Axes pseudo-f=4.0, P=

118 KOEFICIENT DETERMINACE V REGRESI celková suma čtverců residuální suma čtverců 122

119 vysvětlená variabilita VYSVĚTLENÁ VARIABILITA (R 2 ) R 2 R 2 Adj počet vysvětlujících proměnných počet vzorků v datovém souboru vysvětlená variabilita stoupá s počtem vysvětlujících proměnných (i když jsou náhodné) a klesá s počtem vzorků v datovém souboru platí pro přímou (kanonickou) ordinační analýzu i mnohonásobnou regresi Peres-Neto et al. (2006) Ecology 123

120 vysvětlená variabilita VYSVĚTLENÁ VARIABILITA (R 2 ) A ADJUSTOVANÝ R 2 R 2 R 2 Adj počet vysvětlujících proměnných počet vzorků v datovém souboru adjustovaný R2 se nemění s počtem vysvětlujících proměnných a počtem vzorků v souboru 124 Peres-Neto et al. (2006) Ecology

121 Výpočet adjustovaného R 2 pomocí Ezekielovy formule (RDA) n... počet vzorků p... počet vysvětlujících proměnných R 2 Y X... vysvětlená variabilita bez adjustace Výpočet adjustovaného R 2 permutačním modelem (RDA, CCA) 2 R perm variabilita vysvětlená proměnnými prostředí po jejich znáhodnění R 2 variabilita vysvětlená proměnnými prostředí R 2 R 2 adj o kolik variability vysvětlí proměnné prostředí víc než by vysvětlily náhodné proměnné? 2 R adj 1 = R 2 1 R perm 125

122 VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R 2 nelze srovnávat vysvětlenou variabilitu v analýzách založených na různém počtu vzorků a druhů i náhodná proměnná vysvětlí nenulové množství variability (při následném testování signifikance ale bude neprůkazná) množství vysvětlené variability stoupá s počtem vysvětlujících proměnných (i když tyto jsou třeba úplně náhodné) nelze srovnávat variabilitu vysvětlenou modelem s různým počtem vysvětlujících proměnných (čím víc proměnných, tím víc vysvětlené variability) možné řešení použití tzv. adjustovaného R 2, tzn. vysvětlené variability ošetřené o variabilitu, kterou by vysvětlil stejný počet náhodných proměnných adjustovaný R 2 je možné spočítat pro lineární ordinační metody, pro unimodální je třeba použít metody založené na permutacích CANOCO umí adjr2 pro lineární i unimodální metody (CCA i RDA), erko (vegan) jen pro lineární (RDA) 126

123 PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST testuje nulovou hypotézu, že druhové složení je nezávislé na jedné nebo více vysvětlujících proměnných test první kanonické osy vliv jen jedné kvantitativní proměnné test všech kanonických os vliv všech proměnných, nebo vliv jedné kategoriální proměnné s více kategoriemi (počet os = počet kategorií 1) testová statistika F data (pseudo-f) P hladina signifikance n x počet permutací, kde F perm >= F data N celkový počet permutací 127

124 PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST 128 Herben & Münzbergová (2001)

125 PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST randomizace ploch bez omezení (unrestricted randomization) randomizace ploch v blocích (randomization within blocks defined by covariables) 129 Herben & Münzbergová 2001

126 POSTUPNÝ VÝBĚR VYSVĚTLUJÍCÍCH PROMĚNNÝCH FORWARD SELECTION ze souboru vysvětlujících proměnných umožňuje vybrat jen ty, které mají průkazný vliv v každém kroku testuje zvlášť vliv jednotlivých proměnných (Monte- Carlo permutační test) vybere tu proměnnou, která vysvětlí nejvíce variability a zároveň je signifikantní; tuto proměnnou pak do modelu zahrne jako kovariátu v dalším kroku znovu testuje vliv jednotlivých proměnných na druhová data (s odstraněním vlivu kovariát) a opakuje předchozí kroky testy signifikance jsou zatíženy mnohonásobným porovnáním, a jsou proto poměrně liberální (počet signifikantních proměnných je často nerealisticky vysoký a vyžaduje např. Bonferroniho korekci) 130

127 PROBLÉM MNOHONÁSOBNÉHO POROVNÁNÍ Simulace: 25 náhodně vygenerovaných proměnných otestování průkaznosti korelace každé proměnné s každou (čtvercová matice) průkazné korelace (p < 0.05) jsou označeny červeně dohromady 300 analýz, z nich je 16 průkazných 131

128 PARCIÁLNÍ ORDINACE PARTIAL ORDINATION odstraňuje část variability vysvětlené proměnnými, které jsou pro nás nezajímavé (například vliv umístění ploch do bloků) následně se přímou nebo nepřímou ordinací analyzuje zbytková variabilita nezajímavé proměnné se definují jako kovariáty pokud následuje přímá ordinace ordinační osy představují čistý vliv ostatních vysvětlujících proměnných bez vlivu kovariát pokud následuje nepřímá ordinace ordinační osy zachycují zbytkovou variabilitu v druhových datech po odstranění vlivu kovariát 132

129 ROZKLAD VARIANCE VARIANCE PARTITIONING zbytková variabilita variabilita vysvětlená proměnnou 1 variabilita vysvětlená proměnnou 2 vysvětlená variabilita sdílená proměnnou 1 a proměnnou 2 Borcard et al. 1992, Ecology 73:

130 ROZKLAD VARIANCE VARIANCE PARTITIONING vysvětlující proměnná kovariáta vysvětlená variabilita 1 a 2 není [a]+[b]+[c] 1 2 [a] 2 1 [c] sdílená variabilita [b] = ([a]+[b]+[c]) [a] [c] nevysvětlená variabilita [d] = Total inertia ([a]+[b]+[c]) [d] [a] [b] [c] proměnná 1 proměnná 2 [a]+[b] celkový (marginal) vliv proměnné 1 [a] čistý (partial, conditional) vliv proměnné 1 (bez vlivu prom. 2) 134 Borcard et al. 1992, Ecology 73:

131 NEVYSVĚTLENÁ VARIABILITA [d] ordinační metody jsou založené na modelu (lineární nebo unimodální) odpovědi druhu na gradient prostředí, který je velkým zjednodušením skutečnosti variance nevysvětlená modelem (složka D) ve skutečnosti obsahuje variabilitu, která by mohla být vysvětlena některou z proměnných, pokud by se data chovala podle teoretického modelu varianci nevysvětlenou modelem tedy nelze interpretovat jen jako zbytkovou variabilitu, která je dána šumem v datech a tím, že ne všechny proměnné prostředí byly měřeny Total inertia proto není měřítkem celkové variability v druhových datech, ale variability, kterou je možné zachytit pomocí zvoleného modelu (lineárního nebo unimodálního) variabilita vysvětlená danou proměnnou prostředí a vypočtená jako eigenvalue / total inertia je proto podhodnocená Økland (1999) J. Veg.Sci. 10: vedle procenta vysvětlené variability (eigenvalue / total inertia) uvádějte také relativní množství variability, kterou daná proměnná vysvětlí z celkové variability vysvětlené všemi proměnnými prostředí 135

132 PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH druhové složení společenstev měkkýšů ph Ca cond Mg Na druhové složení slatiništní vegetace měřené proměnné prostředí (ve vodě) Otázka: Je druhové složení společenstev měkkýšů na slatiništích ovlivněno více druhovým složením vegetace, nebo stanovištními podmínkami? Horsák M. & Hájek M. (2003) 137

133 PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH druhové složení měkkýšů (Hellingerova transformace) -> RDA druhové složení vegetace > DCA (krátký gradient) -> PCA postupný výběr proměnných (RDA) na měkkýších mezi PCA osami reprezentujícími vegetaci mezi proměnnými prostředí reprezentujícími stanovištní podmínky výsledek z vegetačních dat nejlépe vysvětlí měkkýše první dvě osy PCA z proměnných prostředí je nejlepší obsah vápníku a konduktivita slatiništní vody rozklad variance mezi vegetaci a proměnné prostředí test marginálních a parciálních frakcí vysvětlené variability 138

134 PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH vegetace [PC1 + PC2] 6% p < 0.01 proměnné prostředí [Ca + conduct] 20% 2% p = [d] = 72% 139

135 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY 140

136 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY 141

137 PCNM (PRINCIPAL COORDINATES OF NEIGHBOUR MATRICES)

138 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY 143

139 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY 144

140 JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? procento variability vysvětlené hlavními osami CANOCO: cummulative percentage variance of species data vypočte se také jako eigenvalue / total variance ukazuje, jak úspěšný byl celý proces ordinace čím více jsou jednotlivé druhy korelované, tím více variability bude vysvětleno několika málo hlavními osami má smysl srovnávat vysvětlenou variabilitu hlavních os různými ordinačními technikami na stejných datech nemá smysl srovnávat vysvětlenou variabilitu hlavních os stejnými ordinačními technikami na různých datech (eigenvalues jsou závislé na počtu hráčů ve hře druhů, vzorků) skóre (souřadnice) závisle proměnných (druhů) na osách u lineárních technik skóre = regresní koeficient, v ordinačních diagramech zobrazeny jako šipky u unimodálních technik skóre = optimum druhu, v ordinačních diagramech zobrazeny jako body 145

141 JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? skóry vzorků (snímků) na osách v ordinačních diagramech vzorky zobrazeny jako body (lineární i unimodální techniky) vzdálenost mezi body v ordinačním prostoru odpovídá nepodobnosti mezi vzorky (ne ale nepodobnosti celého floristického složení, ale jenom té části, která je vyjádřena zobrazenými ordinačními osami) skóry nezávislých (vysvětlujících proměnných) * regresní koeficienty, důležitá jsou jejich znaménka test signifikance (Monte-Carlo permutační test) * ukazuje na statistickou významnost použitých vysvětlujících proměnných 146 * jen přímé ordinační techniky

142 JEDNOTLIVÉ PROMĚNNÉ TERMINOLOGIE vysvětlované / závislé proměnné CANOCO: druhy (species) vysvětlující / nezávislé proměnné, prediktory * CANOCO: proměnné prostředí (environmental variables) měřené nebo odhadované proměnné vzorky, objekty, případy (cases) CANOCO: snímky (samples) kovariáty, nezajímavé vysvětlující / nezávislé proměnné * CANOCO: kovariáty (covariables) proměnné, jejichž vliv nás nezajímá a chceme ho z analýzy odstranit 147 * jen přímé ordinační techniky

143 Nepřímá a přímá ordinační analýza PCA a RDA na datech z Vltavy (log + Hellinger) PCA s pasivně promítnutými proměnnými prostředí RDA s vysvětlujícími proměnnými prostředí 149

144 ORDINAČNÍ DIAGRAMY KONVENCE zobrazení vzorků -> body zobrazení druhů -> šipky (lineární metody) -> body, centroidy (unimodální metody) zobrazení ordinačních os vodorovná bývá osa vyššího řádu (např. první) orientace os je arbitrární zobrazení proměnných prostředí šipky (kvantitativní proměnné) centroidy (kategoriální proměnné) typ ordinačního diagramu: Lepš & Šmilauer (2003) Multivariate analysis of... scatterplot - 1 typ dat (vzorky nebo druhy) biplot - 2 typy dat (např. vzorky a druhy) triplot - 3 typy dat (např. vzorky, druhy a proměnné prostředí) 150

145 ORDINAČNÍ DIAGRAMY nepřímá ordinace přímá ordinace lineární metoda unimodální metoda Lepš & Šmilauer (2003) Multivariate analysis of

146 HISTORICKÉ ORDINAČNÍ DIAGRAMY BRAY & CURTIS NEPŘÍMÁ GRADIENTOVÁ ANALÝZA 152 Bray & Curtis (1957): An ordination of the upland forest communities of Southern Wisconsin. Ecological Monographs 27:

147 MODERNÍ ANALOGIE (DCA V KNIHOVNĚ VEGAN) 153

148 TŘI ALTERNATIVNÍ PŘÍSTUPY K PŘÍMÉ ORDINAČNÍ ANALÝZE (a) Klasický přístup: RDA zachovává euklidovské distance, CCA chi-kvadrát distance (b) Transformace dat (tb-rda): používá distance vzniklé transformací dat (např. Hellingerova distance) (c) Přes matici nepodobností (db-rda): zachovává distance použité ve vstupní distanční matici 154 Legendre & Legendre (2012) podle Legendre & Gallagher (2001)

149 PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) linear (lineární) unimodal (unimodální) transformationbased (založené na transformovaných primárních datech) distancebased (založené na distanční matici) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-pca (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-rda (redundanční analýza na transformovaných primárních datech) db-rda (redundanční analýza založená na distanční matici) 155

150 MANTEL TEST KORELACE MEZI MATICEMI NEPODOBNOSTÍ 156 Legendre & Legendre 1998

151 MANTEL TEST proměnná prostředí ph D e druhová data sp1 sp (eucl.) D sp D e D sp r = p =

152 SHRNUTÍ 158 Legendre & Legendre 1998

153 POUŽÍVÁNÍ ORDINAČNÍCH METOD A SOFTWARE (VEGETAČNÍ STUDIE) 159 von Wehrden et al. (2009) JVS

154 PCA PŘÍKLAD TRENDY V NÁZVECH ČLÁNKŮ V EKOLOGICKÝCH ČASOPISECH 160 Nobis & Wohlgemuth (2004) Oikos

155 161 Nobis & Wohlgemuth (2004) Oikos

156 DCA PŘÍKLAD FLORISTICKÁ DATA Z NP PODYJÍ skóre pro jednotlivé kvadráty z 1. a 2. osy DCA (na základě jejich floristického složení) byly promítnuty do síťové mapy Chytrý et al. (1999) Preslia 162

157 PCA PŘÍKLAD ZMĚNY V DRUHOVÉM SLOŽENÍ PÁLAVSKÝCH DUBOHABŘIN (R. HEDL 2005, DISERTAČNÍ PRÁCE) Výrazný úbytek druhové bohatosti bylinného (E1) a keřového (E2) patra v posledních 50ti letech. Data jsou založená na zopakování fytocenologických snímků na plochách snímkovaných Jaroslavem Horákem v šedesátých letech. Změna v druhovém složení vegetace v průběhu 50ti let samovolné sukcese (PCA diagram). 163

158 NMDS PŘÍKLAD VLIV SUCHA NA SLOŽENÍ SPOLEČENSTEV V EXPERIMENTÁLNÍ STUDII 164 Chase (2007) PNAS

159 NMDS PŘÍKLAD ZOBRAZENÍ ZMĚN V DRUHOVÉM SLOŽENÍ V PROSTORU NA PŘÍKLADU TRVALÝCH PLOCH V TROPICKÉM LESE Baldeck et al. (2013) Skóre ploch v 3D NMDS ordinačním diagramu vyjádřené pomocí RGB barev 166

160 CCA PŘÍKLAD ROZDÍL MEZI PRADÁVNÝMI A DRUHOTNÝMI LESY Vojta (2007) Preslia 169

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV OSNOVA PŘEDNÁŠKY Typy sbíraných dat kategoriální vs kvantitativní, pokryvnosti, frekvence Příprava dat pro numerické analýzy čištění dat, odlehlé body, transformace,

Více

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV OSNOVA PŘEDNÁŠKY Příprava dat pro numerické analýzy čištění dat, odlehlé body, transformace, standardizace, EDA Design ekologických experimentů manipulativní experimenty

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Pokud data zadáme přes Commands okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18. Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Statistické testování hypotéz II

Statistické testování hypotéz II PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické Československá psychologie 0009-062X Metodologické požadavky na výzkumné studie METODOLOGICKÉ POŽADAVKY NA VÝZKUMNÉ STUDIE Výzkumné studie mají přinášet nová konkrétní zjištění získaná specifickými výzkumnými

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

REGRESE VS KALIBRACE. David Zelený Zpracování dat v ekologii společenstev

REGRESE VS KALIBRACE. David Zelený Zpracování dat v ekologii společenstev REGRESE VS KALIBRACE David Zelený METODY GRADIENTOVÉ ANALÝZY Data, která máme: počet charakteristik prostředí počet druhů Apriorní znalost vztahů mezi druhy a prostředím? Použijeme: Dostaneme: 1, n 1 ne

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel

Více

Zobecněná analýza rozptylu, více faktorů a proměnných

Zobecněná analýza rozptylu, více faktorů a proměnných Zobecněná analýza rozptylu, více faktorů a proměnných Menu: QCExpert Anova Více faktorů Zobecněná analýza rozptylu (ANalysis Of VAriance, ANOVA) umožňuje posoudit do jaké míry ovlivňují kvalitativní proměnné

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.1 Matematické principy vícerozměrných metod statistické analýzy

Více

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové

Více

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 Inovace předmětu STATISTIKA Obsah 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 1 1. Inovace předmětu STATISTIKA Předmět Statistika se na bakalářském oboru

Více

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2 Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech. 3 Grafické zpracování dat Grafické znázorňování je velmi účinný způsob, jak prezentovat statistické údaje. Grafy nejsou tak přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1

Více

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Cvičení ze statistiky - 3. Filip Děchtěrenko

Cvičení ze statistiky - 3. Filip Děchtěrenko Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf

Více

Užití země v České republice v letech 1994 až 2012 Karel Matějka IDS, Na Komořsku 2175/2a, 143 00 Praha 4, Česká republika matejka@infodatasys.

Užití země v České republice v letech 1994 až 2012 Karel Matějka IDS, Na Komořsku 2175/2a, 143 00 Praha 4, Česká republika matejka@infodatasys. Užití země v České republice v letech 1994 až 2012 Karel Matějka IDS, Na Komořsku 2175/2a, 143 00 Praha 4, Česká republika matejka@infodatasys.cz Po roce 19 došlo k výrazné změně hospodářských poměrů v

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno

Více

Mnohorozměrná analýza ekologických dat

Mnohorozměrná analýza ekologických dat Mnohorozměrná analýza ekologických dat Jan Lepš & Petr Šmilauer Překlad: Dana Vašková, s následnými korekcemi autorů Biologická fakulta Jihočeské univerzity v Českých Budějovicích České Budějovice, 2000

Více

Induktivní statistika. z-skóry pravděpodobnost

Induktivní statistika. z-skóry pravděpodobnost Induktivní statistika z-skóry pravděpodobnost normální rozdělení Z-skóry umožňují najít a popsat pozici každé hodnoty v rámci rozdělení hodnot a také srovnávání hodnot pocházejících z měření na rozdílných

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

4ST201 STATISTIKA CVIČENÍ Č. 10

4ST201 STATISTIKA CVIČENÍ Č. 10 4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404 SOLVER UŽIVATELSKÁ PŘÍRUČKA Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404 1. Solver Program Solver slouží pro vyhodnocení experimentálně naměřených dat. Základem

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme, Úloha 1: V naší studii se zabýváme poptávkovou funkcí životního pojištění, vycházíme z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů AGENDA Definice kvality DRG systému Statistické metody hodnocení kvality DRG klasifikace Identifikace nenáhodného rozložení případů Využití regresní analýzy nákladů při hledání důvodů v rozdílných nákladech

Více

Robust 2014, 19. - 24. ledna 2014, Jetřichovice

Robust 2014, 19. - 24. ledna 2014, Jetřichovice K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University

Více

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr Kurz SPSS: Jednoduchá analýza dat Jiří Šafr vytvořeno 29. 6. 2009 Dva základní typy statistiky 1. Popisná statistika: metody pro zjišťování a sumarizaci informací grfy, tabulky, popisné chrakteristiky

Více

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS

Více

Národníinformačnístředisko pro podporu jakosti

Národníinformačnístředisko pro podporu jakosti Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Analýza dat z dotazníkových šetření

Analýza dat z dotazníkových šetření Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Přehled vhodných metod georeferencování starých map

Přehled vhodných metod georeferencování starých map Přehled vhodných metod georeferencování starých map ČVUT v Praze, katedra geomatiky 12. 3. 2015 Praha Georeferencování historická mapa vs. stará mapa georeferencování umístění obrazu mapy do referenčního

Více

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD Umělé (dummy) proměnné se používají, pokud chceme do modelu zahrnout proměnné, které mají kvalitativní či diskrétní charakter,

Více

MATURITNÍ TÉMATA Z MATEMATIKY

MATURITNÍ TÉMATA Z MATEMATIKY MATURITNÍ TÉMATA Z MATEMATIKY 1. Základní poznatky z logiky a teorie množin Pojem konstanty a proměnné. Obor proměnné. Pojem výroku a jeho pravdivostní hodnota. Operace s výroky, složené výroky, logické

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu Metoda Monte Carlo a její aplikace v problematice oceňování technologií Manuál k programu This software was created under the state subsidy of the Czech Republic within the research and development project

Více

Zpracování a vyhodnocování analytických dat

Zpracování a vyhodnocování analytických dat Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí

Více

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI Aleš Linka 1, Petr Volf 2 1 Katedra textilních materiálů, FT TUL, 2 Katedra aplikované matematiky, FP TUL ABSTRAKT. Internetové

Více

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 1 ČHMÚ, OPZV, Na Šabatce 17, 143 06 Praha 4 - Komořany sosna@chmi.cz, tel. 377 256 617 Abstrakt: Referát

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

Vliv realizace, vliv přesnosti centrace a určení výšky přístroje a cíle na přesnost určovaných veličin

Vliv realizace, vliv přesnosti centrace a určení výšky přístroje a cíle na přesnost určovaných veličin Vliv realizace, vliv přesnosti centrace a určení výšky přístroje a cíle na přesnost určovaných veličin doc. Ing. Martin Štroner, Ph.D. Fakulta stavební ČVUT v Praze 1 Úvod Při přesných inženýrsko geodetických

Více

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.

Více

Státní závěrečná zkouška z oboru Matematika a její použití v přírodních vědách

Státní závěrečná zkouška z oboru Matematika a její použití v přírodních vědách Státní závěrečná zkouška z oboru Matematika a její použití v přírodních vědách Ústní zkouška z oboru Náročnost zkoušky je podtržena její ústní formou a komisionálním charakterem. Předmětem bakalářské zkoušky

Více

ROZDĚLENÍ NÁHODNÝCH VELIČIN

ROZDĚLENÍ NÁHODNÝCH VELIČIN ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

StatSoft Jak poznat vliv faktorů vizuálně

StatSoft Jak poznat vliv faktorů vizuálně StatSoft Jak poznat vliv faktorů vizuálně V tomto článku bychom se rádi věnovali otázce, jak poznat již z grafického náhledu vztahy a závislosti v analýze rozptylu. Pomocí následujících grafických zobrazení

Více

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty Data v počítači Informační data (elementární datové typy) Logické hodnoty Znaky Čísla v pevné řádové čárce (celá čísla) v pohyblivé (plovoucí) řád. čárce (reálná čísla) Povelová data (instrukce programu)

Více

Navrhování experimentů a jejich analýza. Eva Jarošová

Navrhování experimentů a jejich analýza. Eva Jarošová Navrhování experimentů a jejich analýza Eva Jarošová Obsah Základní techniky Vyhodnocení výsledků Experimenty s jedním zkoumaným faktorem Faktoriální experimenty úplné 2 N dílčí 2 N-p Experimenty pro studium

Více

Maturitní otázky z předmětu MATEMATIKA

Maturitní otázky z předmětu MATEMATIKA Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu MATEMATIKA 1. Výrazy a jejich úpravy vzorce (a+b)2,(a+b)3,a2-b2,a3+b3, dělení mnohočlenů, mocniny, odmocniny, vlastnosti

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Praktické řešení v software Statistica Jiří Jarkovský, Simona Littnerová Vícerozměrné metody 1. Vstupní data pro vícerozměrné analýzy 2. Metriky podobností a vzdáleností 3. Cluster Analysis 4. Principal

Více