TRANSFORMACE CO TO JE?

Podobné dokumenty
ZPRACOVÁNÍ DAT V EKOLOGII

Studijní předmět: Základy teorie pravděpodobnosti a matematická statistika Ročník:

16. Kategorizace SW chyb, kritéria korektnosti a použitelnosti, spolehlivost SW

Kurz 4st210 cvičení č. 5

Návod k použití vědeckého kalkulátoru HP10s

Výsledky sledování indikátoru ECI/TIMUR A.3: Mobilita a místní přeprava cestujících V Praze - Libuši

Charakteristiky centrální polohy. Základní statistické pojmy. - Populace, jedinec, vzorek, znak. Typy proměnných

Teplota a její měření

ZŠ ÚnO, Bratří Čapků 1332

4 Datový typ, proměnné, literály, konstanty, výrazy, operátory, příkazy

v mechanice Využití mikrofonu k

Menu: QCExpert Lineární regrese Modul lineární regrese slouží pro tvorbu a analýzu lineárních regresních modelů v obecném tvaru

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Porovnání výsledků analytických metod

SHRNUTÍ LÁTKY 7. ROČNÍKU Mgr. Iva Strolená

Kapitola 3 VÝDAJE A ROVNOVÁŽNÝ PRODUKT (MODEL 45 tzn. MODEL DŮCHOD VÝDAJE)

ZŠ ÚnO, Bratří Čapků 1332

Databáze 2011/2012 SQL SELECT II. RNDr.David Hoksza, Ph.D.

Vnitřní předpis města Náchoda pro zadávání veřejných zakázek malého rozsahu (mimo režim zákona č. 137/2006 Sb., o veřejných zakázkách)

Střední průmyslová škola strojní a elektrotechnická. Resslova 5, Ústí nad Labem. Fázory a komplexní čísla v elektrotechnice. - Im

Základní škola Valašské Meziříčí, Vyhlídka 380, okres Vsetín, příspěvková organizace

Mistrovství České republiky v logických úlohách

Kinematika hmotného bodu I.

Uživatelský manuál Sta4MilPRO

Cíl kapitoly: Cílem této č{sti je naučit se při debutov{ní číst hexadecim{lní hodnoty odpovídající z{znamu celých a re{lných čísel.

Podmínky pro schválení provozu RNP APCH včetně APV BARO-VNAV

FRONTA. Podobně jako u zásobníku lze prvek z fronty vyjmout pouze za takové podmínky, že je na řadě. Avšak jeho hodnotu můžeme přečíst kdykoliv.

Výzva k podání nabídek

Tabulka 1. d [mm] 10,04 10,06 10,01 9,98 10,01 10,03 9,99 10,01 9,99 10,03

CZ. Regulační ventily Regulační ventily s omezovačem průtoku BEE line -1-

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Písemné zkoušky společné části maturitní zkoušky školní rok 2013/2014

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Odpisy a opravné položky pohledávek

SMART Notebook Math Tools 11

- M matice hmotností - K matice tlumení - C matice tuhostí. Buzení harmonické. Buzení periodické

RODINA GENŮ CYP450 A METABOLISMUS LÉKŮ

Kompoziční analýza vah ve vícekriteriálním hodnocení variant

I. Zobrazení dat a operace.

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Zpráva z testování 7.ročníků ZŠ v rámci projektu Rozvoj a podpora kvality ve vzdělávání

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

1 SKLO Z POŽÁRNÍHO HLEDISKA - TEPELNÉ VLASTNOSTI SKLA

CZ. Regulační ventily LDM COMAR line -1-

SMĚRNICE č. 5 ŠKOLENÍ ZAMĚSTNANCŮ, ŽÁKŮ A DALŠÍCH OSOB O BEZPEČNOSTI A OCHRANĚ ZDRAVÍ PŘI PRÁCI (BOZP)

V OBLASTI ZAJIŠTĚNÍ A ROZVOJE PODPORY SENIORŮ A OSOB SE ZDRAVOTNÍM POSTIŽENÍM

Možnosti a druhy párování

DeepBurner Free 1.9. Testování uživatelského rozhraní s uživateli Deliverable B1 TUR Testování uživatelských rozhraní 2011 ČVUT FEL

Předmět matematika je úzce spjat s ostatními předměty viz. mezipředmětové vztahy.

Analýza dat na PC I.

Pojistná matematika. Podstata pojišťovny: se vzrůstajícím počtem klientů, klesá pojistně technické riziko.

MOBILITA A MÍSTNÍ PŘEPRAVA

Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1

PCA BIPLOT ŠKÁLOVÁNÍ OS (1)

Rekuperace rodinného domu v Přestavlkách

Dotaz typu Common Info v MarushkaDesignu

Uživatelský manuál Sta4MilPRO

ZÁKLADNÍ INFORMACE O SPOLEČNÉ ČÁSTI MATURITNÍ ZKOUŠKY

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

Lokalizace souřadnic v MarushkaDesignu

Návrh zákona o evidenci tržeb připomínkové řízení

CZ Regulační ventily LDM COMAR line

Univerzita Karlova v Praze, KOLEJE A MENZY, Voršilská 1, Praha 1

Univerzita Karlova v Praze Pedagogická fakulta

Pravidla pro poskytování fakultativních služeb klientům

[AVG-WEB] Zpř í stupně ní kořpořá tní ho wěbu Semestrální práce z předmětu A4M39NUR

Počet knihoven: 146 knihoven (20 profi, 126 neprofi). V roce z nich nevykazovaly vůbec žádnou činnost.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Možnosti připojení WMS služby do Klienta v Marushka Designu

Instalace a technické informace

Dotazník tvoří celkem 25 otázek. Jejich zpracování stanovujeme do Garantujeme důvěrnost veškerých získaných informácí.

CZ. Třícestné regulační ventily LDM RV 113 M

MONTÁŽNÍ TECHNIKA. pro všechny druhy fotovoltalických systémů. 4 profily nabízející široké využití. Praktické nerezové držáky

Jak zavést systém managementu kvality

Základní principy a metody fotometrie

1 ÚVOD 3 2 OBECNÁ ČÁST 5 3 POJIŠTĚNCI 11

pravděpodobnosti, popisné statistiky

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

SPARTAN DAIRY 3.0. Uživatelský manuál. Vytvořeno s podporou Interní vzdělávací agentury projekt č. 2017FVHE/2220/47 VFU BRNO

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

PowerEgg2 Detektor a spínač síťových napětí

Technická specifikace předmětu plnění. VR Organizace dotazníkového šetření mobility obyvatel města Bratislavy

Statistické testování hypotéz II

Čistota vody a životní prostředí

VÍŘIVÁ VÝUSŤ EMCO TYPU DAL 358

Přednášky Teorie řízení Tereza Sieberová, 2015 LS 2014/2015

5. Glob{lní navigační satelitní systémy (GNSS), jejich popis, princip, využití v geodézii.

Posuzování zdravotní způsobilosti k řízení motorových vozidel jako součásti výkonu práce

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod

Počet integrální. Obsah. Terms of use:

Speciální teorie relativity

Bohužel nejste jediní. Jak se v této džungli orientovat a jaké jsou možnosti při prodeji nemovitosti se dozvíte na následujících stránkách.

Zpracování multimediálních dat

OPTIMALIZACE PUBLIKOVÁNÍ PŘÍSPĚVKŮ SOCIÁLNÍ STRÁNKY ENERGETICKÉHO NÁPOJE SEMTEX NA SOCIÁLNÍ SÍTI FACEBOOK

Financování veřejných vysokých škol v letech :

Hudební a filmové nosiče Rozmnožování a rozšiřování hudebních děl na zvukových a zvukově obrazových nosičích záznamů

Metodická pomůcka. Využívání záruk ČMZRB k zajišťování bankovních úvěrů

se sídlem Purkyňova 125, Brno , IČ: , DIČ: CZ , tel.: , Znalecký posudek

F O R M Á L N Í P O Ž AD AV K Y N A B AK AL ÁŘSKÉ PRÁCE

Defenzivnı strategie, ktere budeme volit pro u stup z akciovy ch pozic

Transkript:

TRANSFORMACE CO TO JE? matematická funkce pužitá na všechny půvdní hdnty: * = f() f() kntinuální, mntónická, většinu jednduchá funkce nemění přadí hdnt mění relativní rzestupy mezi hdntami a tudíž i varianci a tvar rzlžení přadí hdnt zůstane zachván (transfrmace nemá vliv na neparametrické testy) např. dmcnina, lgaritmus x^2 x^0.5 ln(x) x^2 0 20 40 60 80 100 x^0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 ln(x) -4-3 -2-1 0 1 2 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 x2 x2 x2 1

TRANSFORMACE PROČ? vyžaduje t statistika nenrmálně rzlžená data hetergenní variance (heterscedasticity) ne vždy zcela bjektivní, ale v literatuře běžný důvd - některé testy jsu platné jen při splnění předpkladů, že residua jsu nrmálně rzlžena a mají hmgenní varianci (variance nezávisí na průměru) přítmnst dlehlých hdnt linearizace vztahů lineární vztahy se lépe mdelují a interpretují škála měření je arbitrární a nemusí dpvídat eklgickému významu prměnné Pčet druhů 15 20 25 30 Pčet druhů 15 20 25 30 0 500 1000 1500 2000 2500 Pčet jedinců 4 5 6 7 8 ln(pčet jedinců) 2

TRANSFORMACE 0 500 1000 1500 2000 2500 4 5 6 7 8 Frequency 0 5 10 15 20 Frequency 0 2 4 6 8 0 500 1000 1500 2000 2500 3000 4 5 6 7 8 0 500 1000 1500 2000 2500 Pčet jedinců 4 5 6 7 8 ln(pčet jedinců) 3

NORMALITA DAT mnhé testy hyptéz platné jen při splnění některých předpkladů jeden z nich je nrmalita rzlžení residuí mylné a bezdůvdné testvání nrmality prediktrů ideální prediktr má rzlžení unifrmní četnst měření se nemění pdél gradientu prediktru Zuur et al. 2007 4

RESIDUA LINEÁRNÍHO MODELU Vysvětlvaná prměnná (respnse) 10 11 12 13 Residuum Fitvané hdnty Průměr vysvětlvané prměnné Pzrvané hdnty 2 3 4 5 6 7 Vysvětlující prměnná (explanatry) 5

VÝBĚR TRANSFORMACE tvar rzlžení (sešikmenst skeweness) vztah prměnných rzsah hdnt (zahrnují nulu neb negativní hdnty?) Negativně (dleva) sešikmené rzlžení (left-skewed) Symetrické pzitivně (dprava) sešikmené rzlžení (right-skewed) 6

ČASTÉ TRANSFORMACE Lgaritmická transfrmace (lg transfrmatin) pr data s výrazně pzitivně (dprava) šikmu distribucí (right skewed) lgnrmální rzlžení běžné v eklgii - násbením sady nezávislých faktrů získáme lgnrmálně rzlženu prměnnu * = lg (), případně * = lg (a* + c) Tvetenia disclripes 0 20 40 60 80 120 0.0 0.1 0.2 0.3 0.4 0.5 na základě lgaritmu nezáleží (10, 2, e) knstanta a zabrání negativním hdntám, pkud prměnná bsahuje = 1; pkud je z intervalu <0;1>, ptm a > 1 pkud prměnná bsahuje nuly, musíme přičíst knstantu c c by měla být stejnéh řádu jak měřené hdnty (např. 0,01 při hdntách d 0,00 d 0,09), u abundancí t dpvídá 1 na knstantě c může záležet výsledek analýz (ANOVA), a prt je dbré vybírat takvé čísl, aby transfrmvaná prměnná byla c nejvíce symetrická lg(tvetenia disclripes + 1) 0 1 2 3 4 Frudeh čísl 0.0 0.1 0.2 0.3 0.4 0.5 Frudeh čísl 7

LOGNORMÁLNÍ ROZLOŽENÍ x x x x x 0.4 0.6 0.8 1.0 1.2 1.4 0.4 0.6 0.8 1.0 1.2 0.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 1.2 1.4 x x x x = 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 1.2 0.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 1.2 0.4 0.6 0.8 1.0 Prduct lg(prduct) 0.00 0.10 0.20 0.30-4 -3-2 -1 8

ODMOCNINOVÁ A MOCNINOVÁ TRANSFORMACE Odmcnina (square rt) na dprava sešikmené rzlžení slabší efekt než lgaritmus * 1 1 2 případně * 2 ( c) ( c) sqrt() 0 1 2 3 4 0 5 10 15 20 pkud jsu v datech nuly, je někdy vhdné přidat knstantu c c např. 0,5 (Skal & Rhlf, 1995) neb 3/8 (0,375) (Anscmbe 1948) třetí a vyšší dmcnina je účinnější na více zešikmená data (čtvrtá dmcnina se pužívá pr abundance druhů s mnha nulami a něklika vyskými hdntami) vyská dmcnina se blíží lgaritmu sqrt( + 3/8) 1 2 3 4 0 5 10 15 20 Mcninná transfrmace (pwer transfrmatin) vhdná pr data negativně (dleva) sešikmená (left skewed) * 2 p = 2, 3 pkud p < 1 - dmcninvá transfrmace (p = 0,5 druhá dmcnina, p = 0,25 čtvrtá dmcnina atd.) sqrt( + 0.5) 1 2 3 4 0 5 10 15 20 9

PŘEHLED MOCNINNÝCH TRANSFORMACÍ Experience and experiment must guide the student (Abbtt 1940) * p = -1 převrácená hdnta (reciprcal) 0 (výsledkem je 1), lgaritmus je limitu funkce, pkud se p blíží 0 1/3 třetí dmcnina (cubic rt) 1/2 druhá dmcnina (square rt) 1 shdná hdnta 2 druhá mcnina (square) 3 třetí mcnina (cube) 4 čtvrtá mcnina... Bx-Cx transfrmace pkud není a priri důvd pr jednu ze standardních transfrmací * * ( lg e 1) / ( ) p (pr λ 0) (pr λ = 0) λ (lambda) je zjištěna iterativně maximalizací lg věrhdnstní funkce 10

DALŠÍ TRANSFORMACE arcsin (angular transfrmatin) vhdná pr prcentické hdnty (a becně pdíly) * arcsin pužitelná pr hdnty v intervalu <-1; 1> jemně rztahuje hdnty blízké 0 a 1 arcsin 0.2 0.6 1.0 1.4 0.0 0.2 0.4 0.6 0.8 1.0 Lgit vhdná pr pdíly stejně jak arcsin hdnty d 0 d 1 * lg 1 rztahuje hdnty blízké 0 a 1 lg 1-4 -2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 Reciprká transfrmace (reciprcal transfrmatin) vhdná pr pměry (například výška/hmtnst, pčet dětí v ppulaci na pčet žen atd.) 1 rztahuje hdnty blízké nule * táčí interpretaci 1 0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0 11

STANDARDIZACE PROMĚNNÝCH (LINEÁRNÍ TRANSFORMACE) Centrvání (centring) * i i Standardizace v úzkém slva smyslu * i i s výsledná prměnná má průměr rven nule dává vzniknut bezrzměrným Z-skóre výsledná prměnná má průměr rven nule a směrdatnu dchylku rvnu jedné synchrnizuje prměnné měřené v různých jedntkách a na různých stupnicích s n i1 ( i ) n 1 2 Změna rzsahu hdnt (ranging) * i * i min( ) i i a) max( ) b) max( ) min( ) výsledná prměnná je v rzsahu [0, 1] max 0.0 0.4 0.8 min max min 0.0 0.4 0.8 a) relativní škála (pměry mezi hdntami zachvané), b) becná prměnná 0 2 4 6 8 10 0 2 4 6 8 10 12

STANDARDIZACE DRUHOVÉ MATICE standardizace p druzích (standardizatin by species) dává stejnu váhu všem druhům zvýší váhu vzácných druhů a sníží váhu hjných ne vždy smysluplná (pkud se druh vyskytuje vzácně v jednm snímku, standardizace p druzích dá tmut snímku velku váhu bude velmi dlišný d statních) vhdná zejména při analýze prměnných prstředí (dstraní se rzdíly v magnitudě a rzptylu prměnných) sp1 sp2 sp3 vzrek 1 1 3 4 vzrek 2 2 6 8 vzrek 3 10 30 40 průměr 4.333 13 17.33 sd 4.933 14.8 19.73 ij j sp1 sp2 sp3 vzrek 1-3.33-10 -13.33 vzrek 2-2.33-7 -9.333 vzrek 3 5.667 17 22.667 ij s j sp1 sp2 sp3 vzrek 1-0.68-0.68-0.68 vzrek 2-0.47-0.47-0.47 vzrek 3 1.149 1.149 1.149 13

STANDARDIZACE PROMĚNNÝCH vzdálensti mezi vzrky vládnu prměnné s velku variancí p standardizaci mají všechny prměnné varianci shdnu Před standardizací P standardizaci Prměnná 2-20 -10 0 10 20 30 Prměnná 2-2 -1 0 1 2 40 50 60 70 80 90 100-2 -1 0 1 2 Prměnná 1 Prměnná 1 14

STANDARDIZACE DRUHOVÉ MATICE standardizace p vzrcích (standardizatin by samples) pkud je analýza zaměřená na relativní prprce mezi druhy, ne jejich abslutní abundance vhdné také v případě, že výsledné abundance závisí na důkladnsti, s jaku sbíráme data (např. při dchytu živčichů dba strávená na plše, pčet pastí neb vliv špatnéh pčasí na mbilitu živčichů) Půvdní hdnty sp1 sp2 sp3 průměr sd vzrek 1 1 3 4 2.666 1.528 vzrek 2 2 6 8 5.333 3.055 vzrek 3 10 30 40 26.66 15.28 Výpčet hdnt v prvním slupci (1-2.666)/1.528-1.09 (2-5.333)/3.055-1.09 (10-26.66)/15.28-1.09 Hdnty standardizvané p vzrcích sp1 sp2 sp3 vzrek 1-1.09 0.218 0.873 vzrek 2-1.09 0.218 0.873 vzrek 3-1.09 0.218 0.873 15

DALŠÍ STANDARDIZACE (PŘES VZORK) Species prfile relativní pdíly abundancí Hellingerva transfrmace mdifikvaný species prfile, lepší statistické vlastnsti Euklidvské vzdálensti vypčítané na transfrmvaných datech vedu k Hellingervě vzdálensti (viz další část) yij y' ij y Tětivvá transfrmace (chrd transfrmatin) y' ij i Euklidvské vzdálensti vypčítané na transfrmvaných datech vedu k tětivvé vzdálensti (viz další část) y y ij i y' ij y p ij j1 y 2 ij Species 2 0.0 0.5 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Species 1 16

TRANSFORMACE matematická funkce, jejíž argumenty nejsu dvzené z dat, na která je transfrmace aplikvaná (data independent) nejčastější důvd je změnit tvar rzlžení prměnné a zajistit hmskedasticitu STANDARDIZACE mění data pmcí statistiky, která je spčtená na datech samtných, např. průměr, sučet, rzsah aj. (data dependent) nejčastější důvd pužití je vyrvnat rzdíly v relativním významu (váze) prměnných, druhů neb vzrků ve své pdstatě je t další typ transfrmace 17

DUMM VARIABLES převd kvalitativní (kategriální) prměnné na kvantitativní (binární) pkud má kategriální prměnná n stavů (kategrií), pr její vyjádření stačí n-1 dummy prměnných ptřeba v CANOCO 4.5 (v CANOCO 5 už ne) Sample Substrát další prměnné 1 bahn... 2 písek... Sample bahn písek vegetace další prměnné 1 1 0 0... 2 0 1 0... 3 1 0 0... 3 bahn... 4 vegetace... 5 vegetace... 6 bahn... 4 0 0 1... 5 0 0 1... 6 1 0 0... 18

KÓDOVÁNÍ DAT (DATA CODING) např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetvy stupnice dminance-abundance Braun-Blanquetva stupnice: r + 1 2 3 4 5 rdinální hdnty*: 1 2 3 4 5 6 7 střední hdnty prcent**: 1 2 3 13 38 63 88 *) van der Maarel (2007), Table 1 **) Turbveg fr Windws 2 19

METADATA zaznamenat veškeré transfrmace, standardizace, kódvání d metadat! 20