Vícerozměrné statistické metody v biologii

Rozměr: px
Začít zobrazení ze stránky:

Download "Vícerozměrné statistické metody v biologii"

Transkript

1 Vícerozměrné statistické metody v biologii Danka Haruštiaková, Jiří Jarkovský, Simona Littnerová, Ladislav Dušek Únor 0 Příprava a vydání této publikace byly podporovány proektem ESF č. CZ..07/..00/ Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky.

2 Předmluva Vícerozměrné statistické metody představuí velice užitečný nástro pro uchopení, zednodušení a vizualizaci velmi složitých dat. Použitelnost těchto metod v přírodních vědách e velmi široká, často se s nimi setkáváme neenom v ekologii, experimentální biologii, medicíně, antropologii, environmentální chemii, ale i v geografii a geologii. Zpracování rozsáhlých biologických a hlavně ekologických dat se bez znalosti vícerozměrných statistických metod iž neobede. Na druhou stranu mohou v případě nesprávného užití vést k zaváděícím výsledkům, eichž chybnost nemusí být ovšem na první pohled zřemá, protože e skryta za složitou strukturou dat a komplikovaností výpočtu. Znalost vícerozměrných statistických metod se tak stala potřebnou součástí biologického vzdělání. Cílem tohoto učebního textu není podrobný teoretický výklad ednotlivých typů vícerozměrných analýz, ale ve stručné a přehledné formě představit postupy analýz, obasnit základy eich využití včetně potenciálně slabých míst a poskytnout návody ke správné interpretaci výsledků; učební text tak slouží zeména ako doplnění přednášek vícerozměrných statistických metod a ako referenční text při samostatné analýze dat. Dostupnost nových studiních materiálů, kterých e v současné době stále nedostatek, by měla přispět k zvýšení odbornosti studentů matematické biologie i dalších přírodovědných oborů. Česká ani anglická terminologie používaná v dostupné literatuře není zcela stabilizovaná a často se stává, že totožné metody sou v různých učebnicích a statistických programech uváděny pod různými názvy. Z tohoto důvodu uvádíme ak anglické názvy metod, tak i české alternativní názvy. Na tomto místě bychom rádi poděkovali za připomínky recenzentům, eichž poznámky výrazně zlepšily kvalitu těchto učebních textů. Příprava a vydání této publikace byly podporovány proektem ESF č. CZ..07/..00/ Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky. V Brně Danka Haruštiaková Jiří Jarkovský Simona Littnerová Ladislav Dušek Danka Haruštiaková, Jiří Jarkovský, Simona Littnerová, Ladislav Dušek ISBN:

3 Úvod. Smysl a cíle vícerozměrné analýzy dat Veškerý svět kolem nás e vícerozměrný. Kromě vnímání třírozměrného tvaru můžeme každý obekt popsat celou řadou dalších charakteristik, ako e třeba barva, hmotnost, chuť atd. Přes tuto skutečnost, kterou vnímáme každý den, e pro nás ovšem problémem představit si tento stav popsaný ve formě datové tabulky nebo e dokonce něakým způsobem popsat inému člověku nastává zde tedy místo pro speciální typ analýzy, vícerozměrnou analýzu. Metody vícerozměrné analýzy sou velmi užitečným prostředkem pro explorativní analýzu složitých dat. Ačkoliv klasická statistika zná řadu způsobů popisu ednotlivých měřených nebo pozorovaných proměnných, e pro nás v případě hodnocení velkého množství proměnných velmi obtížné si tyto výstupy poskládat do ednolitého obrazu vedoucího k pochopení podstaty. Právě vícerozměrná analýza dat e nástroem sloužícím k usnadnění tohoto procesu a eí přínos lze shrnout následovně: nalezení smysluplných pohledů na data popsaná velkým množstvím proměnných; nalezení a popsání skrytých vazeb mezi proměnnými a tím zednodušení eich struktury; ednoduchá vizualizace dat, kdy se v ediném grafu skrývá informace např. z 0 proměnných; umožnění a/nebo zednodušení interpretace dat na základě eich zednodušení a vizualizace. Ačkoliv e v případě vícerozměrných analýz používána celá řada matematických postupů, edno maí všechny tyto analýzy společné hledání souvislostí a eich výklad. Na tomto místě musíme uvést i nevýhody vícerozměrné analýzy dat. Zednodušení vícerozměrného problému e možné pouze tehdy, kdy existue vazba mezi naměřenými proměnnými. Pokud by mezi nimi žádná vazba neexistovala, nebo byla velmi slabá, nemá smysl vícerozměrné metody používat. Dalším problémem může být nesprávné použití metody, které může vést k zaváděícím výsledkům. Při zpracovávání vícerozměrných dat ovšem nemusí být tato chyba patrná, protože e zakryta složitou strukturou dat a náročností výpočtu. Příklady užití vícerozměrných metod můžeme naít v různých oblastech, neen v přírodovědných a medicínských oborech, ale také v technice, kybernetice, sociologii, ekonomii i marketingu. Z oblasti biologických věd můžeme zmínit aplikace v ekologii, ekotoxikologii, taxonomii, etologii, antropologii atd. Konkrétně z ekologie můžeme uvést využití mnohorozměrných metod např. při hodnocení vlivu environmentálních změn na biologická společenstva, klasifikaci vegetačních i půdních společenstev, atd.. Statistický software pro vícerozměrnou analýzu dat V současnosti e k dispozici mnoho nástroů ke zpracování a analýze mnohorozměrných dat. Nerozšířeněší a nepoužívaněší software pro vícerozměrnou analýzu uvádíme níže. Software R (The R Proect for Statistical Computing) e volně dostupný software ( pro zpracování dat a eich analýzu s grafickými výstupy. Výhodou tohoto systému sou algoritmy, které zatím v komerčních softwarových nástroích nesou tolik rozšířené. Systém R na rozdíl od iných softwarů nabízí např. hodnocení výsledků shlukování ve formě tzv. Silhouette plot. 3

4 SPSS (Statistical Package for the Social Sciences) e běžný komerční software s rozšířenými možnostmi zpracování dat a eich analýzy. Vícerozměrné metody sou součásti tohoto softwaru, pro specifické potřeby biologa ovšem nemusí vždy postačovat. Statistica for Windows e běžný komerční software na analýzu a zpracování dat s hezkými grafickými výstupy. Metody vícerozměrné analýzy sou součástí tohoto softwaru, ovšem na rozdíl od specializovaných nástroů e v něm omezené množství možných nastavení vícerozměrných analýz. Syntax 000 e software zaměřený na analýzu ekologických a taxonomických dat. Obsahue metody hierarchického shlukování, nehierarchického shlukování a ordinace. Výhodou tohoto softwarového nástroe sou široké možnosti uživatelského přizpůsobení analýz, které nesou v běžných komerčních softwarech k dispozici. Canoco for Windows 4.5 s dalšími aplikacemi e soubor nástroů specializovaný na analýzu ekologických dat se zvláštním zaměřením na ordinační metody. K dispozici sou všechny běžné ordinační metody, eich kanonické i hybridní formy. U kanonických ordinačních metod poskytue možnost statisticky testovat významnost všech nezávislých proměnných a také kanonických os. V aplikaci Canoco console 4.5 má uživatel další možnosti nastavení. Aplikace CanoDraw for Windows poskytue hezké grafické výstupy analýz, které lze snadno upravovat. PAST (PAlaeontological STatistics) e volně dostupný software ( ohammer/past/) vyvinutý původně pro analýzu paleontologických dat s rozsáhlou nabídkou méně obvyklých vícerozměrných analýz, včetně analýzy tvarů. Další výhodou e i nabídka metod pro analýzu biodiverzity, která ze software PAST činí univerzální nástro analýzy ekologických dat..3 Parametrická a neparametrická vícerozměrná statistika Vícerozměrná statistická analýza se řídí stenými zákonitostmi ako klasická ednorozměrná analýza a řada eích metod e citlivá na předpoklady o rozložení, přítomnost odlehlých hodnot apod. Klasickým příkladem e provázanost analýzy hlavních komponent s parametrickou kovariancí nebo korelací, kdy přítomnost odlehlé hodnoty vede k vysoké hodnotě korelace a eí významnosti, i když zbývaící data nevykazuí žádný vztah. V případě analýzy hlavních komponent tato situace vede k tomu, že první, nedůležitěší faktorová osa ukazue pouze informaci o přítomnosti odlehlé hodnoty v datech a niak nepřispívá k pochopení zdroů variability dat. Naproti tomu některé vícerozměrné metody lze považovat za velmi robustní a analogické k neparametrickým přístupům klasické statistiky (např. některé shlukovací algoritmy). Z těchto důvodů e při výpočtu vícerozměrných analýz třeba věnovat odpovídaící pozornost ověření předpokladů, které sou v rámci učebního textu také u ednotlivých metod uvedeny. 4

5 Datové podklady Podkladem každé vícerozměrné analýzy e vždy tabulka (tabulka.) obsahuící v řádcích ednotlivé měřené obekty (např. lokality, vzorky, respondenty) a ve sloupcích proměnné měřené na těchto obektech. Každá proměnná představue eden rozměr obektu. Tabulka. Ukázka datové tabulky Vzorek Půdní typ Quercus (B-B stupnice)* Teplota vzduchu ( C) Srážky (měsíční úhrn mm) íl 5 íl íl rašelina písek písek 3 4 * Braunova-Blanquetové stupnice. Typy dat Data e možné měřit v následuících stupnicích (škálách): Nominální stupnice (nominal scale): Tato stupnice e kvalitativní. Hodnoty nemaí mezi sebou žádný vztah, platí zde pouze rovnost a nerovnost. Jako příklad lze uvést proměnnou půdní typy, která nabývá hodnot íl, rašelina, písek. Kódy přiřazeny k těmto hodnotám (např.,, 3 ) pouze označuí dané hodnoty a neplatí mezi nimi vztah větší a menší. Specifické postavení mezi znaky zaznamenávanými na nominální stupnici maí znaky binární tyto nabývaí pouze dvou hodnot (např. proměnná pohlaví: muž, žena). Pořadová stupnice (ordinal scale): Pro hodnoty na pořadové stupnici kromě rovnosti a nerovnosti lze určit také vztah menší a větší. Příkladem proměnné měřené na této škále e abundance rostlin měřená na Braunova-Blanquetové stupnici, která pokryvnost rostlinných taxonů hodnotí na 7stupňové škále. Možné hodnoty nebo kódy této stupnice lze seřadit od nenižší abundance po nevyšší. Ovšem nelze určit, zda rozdíl mezi hodnotami a e větší nebo menší než rozdíl mezi hodnotami 4 a 5. Intervalová stupnice (interval scale): Na intervalové stupnici e kromě vlastností předchozích dvou stupnic možné také sčítání a odečítání. Na rozdíl od pořadové stupnice zde lze vyádřit míru rozdílu mezi obekty. Intervalová stupnice ovšem nemá přirozený nulový bod. Příkladem e teplota měřena v stupních Celsia. Rozdíl 5 stupňů znamená to stené přes celou stupnici. Hodnota 0 e reálná teplota; lze určit rozdíl mezi hodnotou 0 a 5 stupňů, nelze ovšem určit, kolikrát e hodnota 5 vyšší než hodnota 0. Poměrová stupnice (ratio scale): Poměrová stupnice dovolue vyádřit poměr mezi hodnotami. Tato stupnice má přirozený nulový bod, lze proto určit poměr (např. teplota ve stupních Kelvina, hodnoty délky, plochy nebo obemu). 5

6 Z hlediska statistického zpracování dat můžeme proměnné rozdělit na: kvalitativní (qualitative) o binární (binary, dvoustavové, alternativní) nabývaí pouze dvou hodnot, většinou e kódueme 0 a (např. přítomnost nebo nepřítomnost určitého živočišného druhu) o vícestavové (multistate) nabývaí vícero hodnot, např. výše uvedené typy půd. Častou úpravou, zlepšuící interpretovatelnost výsledků, e eich převedení do umělých binárních proměnných, tzv. indikátorových proměnných (dummy variables), kde každý stav převedeme na novou binární proměnnou kódovanou semikvantitativní (semiquantitative) do této skupiny patří proměnné, eichž hodnoty sou vyádřeny pomocí pořadové stupnice, která nemá konstantní rozdíly mezi sousedícími hodnotami (např. Braunova-Blanquetové stupnice pokryvnosti) kvantitativní (quantitative) proměnné lze vyádřit měřitelnou stupnicí, na níž sou konstantní rozdíly mezi ednotkami o nespoité, diskrétní (discontinuous, discrete) proměnné, které nabývaí pouze určité reálné hodnoty (např. počet květů) o spoité, kontinuální (continuous) proměnné, které mohou nabývat nekonečného počtu hodnot mezi dvěma pevnými body dané stupnice (např. výška stromů, koncentrace rtuti v půdě apod.).. Možné problémy dat a eich řešení Různé metody vícerozměrné analýzy kladou několik požadavků na vstupní data. V první řadě všechny metody vyžaduí úplné datové matice bez chyběících dat. Některé metody sou dostatečně robustní ve vztahu k odchylkám od normálního rozložení dat, některé metody vyžaduí mnohorozměrné normální rozložení dat. Tento problém lze vyřešit vhodnou transformací dat. V některých případech maí měřené proměnné různé ednotky, často se řádově liší, a tak e vhodné převést proměnné na stené měřítko. K tomu slouží standardizace dat... Chyběící data V případě, že některé hodnoty není možné určit nebo naměřit, e nutné tyto situace ošetřit. K tomu máme několik možností: obekty, ve kterých hodnoty chybí, můžeme vypustit. Toto řešení e vhodné tehdy, když sou chyběící data pouze v několika málo obektech; proměnné, u kterých hodnoty chybí, můžeme vypustit, pokud ich není mnoho a nede o klíčové proměnné (pro určení klíčovosti proměnné e nezbytná expertní znalost problematiky např. proměnnou e možné měřit pouze s nízkou přesností, de o duplicitní proměnnou k iné, dobře vyplněné proměnné a.); chyběící hodnoty můžeme doplnit, a to různými metodami: o doplnění průměru z hodnot, které sou k dispozici; o dopočítání chyběících hodnot pomocí mnohonásobného regresního modelu za použití obektů bez chyběících hodnot. o Tyto metody ovšem způsobí duplikaci informace, kterou iž známe, a dochází tím ke snížení počtu nezávislých pozorování v datech, čili stupňů volnosti. Takto upraveným obektům e pak možné přiřadit menší statistickou váhu. 6

7 .. Transformace dat Transformace e možná několika způsoby. K transformaci se používaí konstanty a funkce nezávislé na analyzovaných datech. Lineární transformace (např. násobení hodnot proměnné konstantou) nemění výsledky analýzy v případech, že de o analýzu kvalitativního vztahu proměnných (např. korelace); v případě, že e důležitá absolutní hodnota proměnné, dochází k vážení eího významu v analýze. Dalším příkladem e adustace proměnné na vliv iných proměnných pomocí eich lineární kombinace (např. adustace hladiny hemoglobinu na věk pacientů). Tato úprava mění i interpretaci výsledné proměnné. Většina transformací, které se používaí v biologii, sou nelineární transformace. Tyto transformace mění rozdělení dat. Logaritmická transformace y i = logc xi nebo (když sou přítomny nuly) (.) yi = logc( xi + ). Tato transformace se často používá ze čtyř různých důvodů: k získání statisticky vhodných vlastností normálního rozdělení u proměnných s lognormálním rozdělením; k dosažení homogenity rozptylu; k linearizaci vztahu proměnných; k přiřazení menší váhy dominantním proměnným a zvýraznění kvalitativní stránky dat. Odmocninová transformace popřípadě ve tvaru: y yi = xi, (.) = x + 0,. (.3) i i 5 Tato transformace se používá: před analýzou proměnných s Poissonovým rozdělením (např. počet edinců určitého druhu získaných z edné pasti za určitou časovou ednotku); k přiřazení nižší váhy dominantním proměnným. Arkussinová transformace y i = arcsin x i (.4) Používá se v kombinaci s odmocninovou transformací a předpokládá, že data sou měřena v intervalu 0-. Používá se na úpravu relativních hodnot vyádřených v intervalu 0- (např. vegetační pokryvnosti druhů). Exponenciální transformace i x i y = a (.5) 7

8 Když a e reálné číslo větší než, sou zvýrazněny dominantní proměnné, pro hodnoty a < se běžně nepoužívá. Transformace na ordinální škálu Hodnoty proměnných sou převedeny do tříd. Čím vyšší e číslo třídy, tím vyšší byla původní hodnota. Ovšem stené číslo třídy nemusí vždy znamenat stenou hodnotu původní proměnné a intervaly tříd nemusí být stené. Typickou transformací na ordinální škálu e použití Braunovy- Blanquetové stupnice při kvantifikaci pokryvnosti vegetace (tabulka.). Tabulka. Braunova-Blanquetové stupnice pokryvnosti vegetačních druhů. stupeň Popis kód r druh velmi vzácný, en -3 drobné exempláře + pokryvnost nižší než % pokryvnost 5 % 3 pokryvnost 5 5 % 4 3 pokryvnost 5 50 % 5 4 pokryvnost % 6 5 pokryvnost % 7 Extrémem e binarizace transformace na prezenci a absenci. y = 0 když x = 0 y = když x > 0 (.6) i i i Transformací na ordinální škálu se vždy ztrácí část informace. V některých případech e ovšem tato transformace ediná možnost, ak dosáhnout srovnatelnosti dat (např. třídy ekologického stavu). Je ovšem velmi výhodné sbírat data v terénu na ordinální škále tak, ak e to běžné např. v botanickém monitoringu. i..3 Standardizace dat Ke standardizaci se používaí statistiky odvozené z analyzovaného souboru dat (rozpětí, směrodatná odchylka, průměr, maximum atd.). Proměnné se tímto postupem prováděí na stené měřítko; přestává tedy záležet na skutečném rozměru příslušné proměnné. K nečastěším úpravám patří centrování a standardizace směrodatnou odchylkou. Standardizace rozpětím y x min { xi} { x } min { x } i i = (.7) max i i Doporučue se použít v případech, kdy sou sice proměnné měřeny ve steném měřítku, ovšem mezi eich hodnotami sou velmi velké rozdíly. Centrování Při centrování e od původní hodnoty pouze odečítán průměr proměnné, t. od prvků sloupce se odečte eich sloupcový aritmetický průměr. y i = x x (.8) i 8

9 Standardizace směrodatnou odchylkou Pod pomem standardizace většinou rozumíme úpravu hodnot proměnné tak, aby standardizovaná proměnná měla nulový průměr a rozptyl roven edné. Nová hodnota se získá odečtením sloupcového průměru od původní hodnoty a podělením sloupcovou střední hodnotou. Výpočtem dostáváme tzv. Z-skóre. xi x yi = z = (.9) s V další části sou představeny metody standardizace ekologických dat, které se používaí zeména ve shlukové analýze. Standardizace e definována ako použití určitého standardu pro všechny proměnné (v ekologických studiích de např. o druhy) nebo obekty (vzorky, lokality) před spočítáním (ne)podobností nebo před aplikací analýzy. Standardizace na celkový součet řádku Hodnoty proměnných v obektu se sečtou a každá hodnota e vydělená tímto součtem. V ekologických studiích se takto určí relativní abundance (dominance) druhů. V případě, že sou součty řádků velmi rozdílné, e třeba používat tuto standardizaci opatrně, protože vzácné druhy se obevuí až ve vzorcích s vysokým počtem edinců. xi y i = (.0) x Standardizace na celkový součet sloupce i Pro každý sloupec (proměnná) e určen součet přes všechny obekty. Původní hodnoty sou pak poděleny sloupcovým součtem. V ekologických studiích, kde proměnné představuí ednotlivé druhy, tímto způsobem získáme frekvence druhů v obektech. Tato standardizace silně nadváží vzácné druhy a podváží běžné druhy, protože všechny početnosti sou vyádřeny ako procento ze sumy druhů napříč lokalitami. Proto se tato standardizace doporučue pouze tehdy, když se frekvence druhů v tabulce výrazně neliší. Tato standardizace bývá používána v případech, kdy se v seznamu druhů vyskytuí různé trofické úrovně, protože vyšší trofické úrovně sou méně zastoupeny (a proto může vyhovovat eich nadvážení). xi y i = (.) x Standardizace na maximum řádku Všechny hodnoty v řádku sou poděleny maximální hodnotou dosaženou u některé proměnné v řádku. Tato standardizace e aplikovaná ze steného důvodu ako standardizace na celkový součet řádku. Je méně citlivá na počet proměnných, e ovšem potřeba užívat i opatrně v těch případech, kdy sou veliké rozdíly ve vyrovnanosti vzorků. xi yi = (.) max { x } Standardizace na maximum sloupce i Všechny hodnoty v sloupci sou poděleny maximální hodnotou sloupce. Tato standardizace e v ekologických studiích doporučovaná, podobně ako standardizace na celkový součet sloupce, když sou přítomny různé trofické úrovně. x i i i 9

10 Standardizace na ednotkovou délku vektoru řádku xi yi = (.3) max { x } Podělením hodnot proměnných u obektu odmocninou sumy čtverců hodnot se všechny vektory obektů zobrazí na ednotkové sféře prostoru tvořeného proměnnými (v ekologických studiích de o druhy). xi yi = (.4) x i i i..4 Problém dvou nul Tzv. problém dvou nul (double-zero problem) e v ekologických studiích častým problémem a eho podstatou e fakt, že z ekologického hlediska neznamená současný výskyt nebo současný nevýskyt druhů na dvoici lokalit tutéž míru podobnosti lokalit. Vyskytue se u proměnných, kde nula znamená nepřítomnost a ne hodnotu stupnice. Typickým příkladem sou početnosti (abundance) druhů. Druhy sou známy unimodální (edno optimum) distribucí niky podél environmentálního gradientu. Jestliže se druh na porovnávaných obektech (např. lokalitách) vyskytue, indikue to eich podobnost. Není-li však zastoupen na žádné, může to být např. způsobeno tím, že environmentální vlastnosti nik obou lokalit sou buď vyšší než na optimální nice, anebo má edna z nich vyšší a druhá nižší vlastnosti, než sou vlastnosti optimální niky. Proto e lépe nedělat ekologické závěry ze společné absence druhu na porovnávaných obektech (obr..). Tento problém se samozřemě netýká pouze binárních dat prezence/absence, ale i kvantitativní analýzy absence/početnost. Problém dvou nul e častým problémem vícerozměrné analýzy v ekologii. Z tohoto důvodu není také vhodné analyzovat složení společenstev pomocí analýzy hlavních komponent, která e na tento problém citlivá. V praxi to znamená vybrat pro analýzu takovýchto dat pouze vhodné metody neovlivněné tímto problémem. Dvoitá přítomnost Dvoitá nepřítomnost 00 Dvoitá nepřítomnost 00 0 Optimum Dvoitá nepřítomnost Hodnoty parametru 0 Obr.. Problém dvou nul (double-zero problem). Dvoitá nepřítomnost není stená ako dvoitá přítomnost. 0

11 3 Vícerozměrná rozdělení 3. Charakteristiky vícerozměrných rozdělení Základní charakteristikou vícerozměrného rozdělení e vektor středních hodnot E(X ) ( ) E(X) E X = E(Xp) a kovariační matice σ σσ σσ p σ σ σ σ σ p Σ = var( X ) = cov( X ) = σ pσ σ pσ σ p kde σ e kovariance dvou náhodných veličin, t. i σ i ( X, X ) = E( X E( X ))( X E( X ) = cov (3.) i i i a σ i = σ i e rozptyl var(x i ). Kovarianční matice e symetrická, neboť σ i = σ i. 3.. Medoid Medoid e reprezentativní obekt datového souboru nebo shluku v datech, ehož průměr vzdálenosti od všech ostatních obektů v datech nebo ve shluku e minimální. Medoid má podobný význam ako průměr nebo centroid, en e vždy reprezentován reálným obektem z datového souboru. Medoid bývá nečastěi používán tam, kde není definován průměr nebo centroid (např. tří- a vícerozměrný prostor). Tento termín se používá při shlukové analýze. 3. Mnohorozměrné normální rozdělení Použitelnost mnohých klasických statistických metod a postupů vyžadue předpoklad o normálním rozdělení sledovaných proměnných. Podmínka normality vyplývá z toho, že metody založené na tomto předpokladu mohou využít kompletní matematický aparát schovaný za danou statistickou metodou. Tyto metody sou také relativně snadno pochopitelné a se získanými řešeními se dobře pracue. Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet, v mnohých přírodních a mnohdy i technických oborech není tento předpoklad samozřemostí. Předpokládeme však normalitu a předpoklad o edné normálně rozložené náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a metody vycházeí z předpokladu vícerozměrného

12 normálního rozdělení. Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací různých iných simultánních rozdělení. Vícerozměrné normální rozdělení e rozšířením ednorozměrného normálního rozložení pro více ak ednu náhodnou proměnnou (p ). Náhodný vektor x má vícerozměrné normální rozložení, má-li eho hustota pravděpodobnosti tvar p T ( ) exp ( x μ) Σ ( x μ) f x = π Σ, (3.) kde μ e vektor p středních hodnot (vektor průměrů) proměnných X, X, X p, Σ e kovariační matice. Vícerozměrné normální rozložení má tyto vlastnosti: lineární kombinace složek vektoru x maí normální rozložení; nekorelovanost náhodných proměnných z x znamená eich nezávislost; všechna podmíněná rozdělení sou normální. Pro ednorozměrné normální rozložení má předešlý vzorec tvar ( ) ( x μ) f x = exp. (3.3) πσ σ μ V exponentu e čtverec vzdálenosti u = x, tedy vzdálenosti x od střední hodnoty μ, σ kde ednotkou vzdálenosti e σ. Pro vícerozměrné normální rozložení můžeme chápat kvadratickou formu v exponentu ako čtverec vzdálenosti vektoru x od vektoru μ, ve kterém e obsažena informace z kovarianční matice. C = T ( x μ) Σ ( x μ), kde C e Mahalanobisova vzdálenost, pro zvolenou hodnotu f ( x) vyadřue p-rozměrnou míru (obem) elipsoidu se středem μ a osami (3.4) c λ v pro =,, p, kde λ sou vlastní čísla mati- T ce Σ a v sou vlastní vektory této matice. C = ( x μ) Σ ( x μ) ~ χ ( p) Dvourozměrné normální rozložení e speciální případ p-rozměrného normálního rozdělení pro p =. Jedná se o vhodné ilustrační schéma obecného případu. Máme dvě náhodné veličiny X a X se středními hodnotami μ a μ, s rozptyly σ, σ a s kovariancí σ, pak e možné determinant kovarianční matice Σ vyádřit ako σσ ( ρ ), kde ρ e korelační koeficient definovaný ako. Tento determinant e roven nule, když ρ =. Podmíněné rozdělení X x σ e σ σ normální se střední hodnotou 0 βx σ β = β0 = µ βµ σ β + a rozptylem ( ) σ ρ. Podmíněné rozdělení X x závisí lineárně na X. Rozptyl X nezávisí na X. Pro dvourozměrné normální rozdělení můžeme elipsy konstantní hustoty znázornit graficky (obr. 3.).

13 ( x,x ) konst. f = Obr. 3. Hustota dvourozměrného normálního rozdělení a elipsy konstantní hustoty, μ = μ = 0, σ =, σ =, ρ= Wishartovo rozdělení Uvažueme ν nezávislých náhodných vektorů u i, i =,, ν, vesměs s rozdělením ( o p, Σ) ν T N p. Potom náhodná matice A = u i u i má p-rozměrné Wishartovo rozdělení s ν stupni i= volnosti, tedy A ~ W p ( ν,σ). Při odvození některých důležitých algoritmů ve vícerozměrné statistické analýze se uplatňue dále uvedená vlastnost Wishartova rozdělení. Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou e rovněž Wishartovo rozdělení se stenou střední hodnotou, přičemž stupně volnosti se sčítaí. A = A + A A H H Ah ~ Wp ( ) = νh, Σ (3.5) Ah ~ Wp νh, Σ,h,,...,H h = Součtová věta pro Wishartovo rozdělení připomíná součtovou větu pro chí-kvadrát, ehož e Wishartovo rozdělení vícerozměrným zobecněním. 3

14 3.4 Hotellingovo rozdělení Uvažume regulární čtvercovou matici A p-tého řádu a rozdělením W ( ν,σ) a na A nezávislý p-položkový vektor a s rozdělením N ( Σ p op, ) p. Potom kvadratická forma c Q = cνa T A a má Hotellingovo rozdělení T (p, ν p+). V ednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (ednovýběrový t-test) ( ) X ~ N μ,σ x μ ~ t( n -). s ( x) n Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru t = n ( x μ) [ s ( x) ] ( x μ). Tento výraz odpovídá p-rozměrné statistice, vhodné k úsudku o μ, která má Hotellingovo rozdělení T s p a n p stupni volnosti, edná se tedy o zobecnění t- rozdělení pro p-rozměrný prostor. Můžeme tedy psát x ~ N p T ( μ, Σ) n( x μ) S ~ T ( p, n p) (3.6) (3.7). (3.8) Obdobným způsobem lze také získat zobecněný dvouvýběrový t-test pro p-rozměrný prostor (Hotellingův test). Pak má daná testová statistika tvar T ^ ( x x δ) ( x x δ) nn T = S, (3.9) n kde δ = μ μ (nečastěi δ = 0), má opět Hotellingovo rozdělení s parametry p, n p. 4

15 4 Asociační koeficienty Vícerozměrná data sou typicky uchovávána a zpracovávána v maticové formě a všechny vícerozměrné metody sou založeny na maticové algebře. Základním vstupem vícerozměrných analýz e matice n obektů (odběry, vzorky, profily, pacienti apod.) popsaná p proměnnými (chemické parametry, abundance ednotlivých druhů atd.). Na základě této matice e počítána asociační matice, t. matice vztahů obsahuící asociační koeficienty, které sou měřítkem podobnosti nebo vzdálenosti dvoice obektů nebo proměnných. Mohou být tedy počítány ak mezi proměnnými (R mode analýza), tak mezi obekty (Q mode analýza). Jako měřítko vazby parametrů e nečastěi využívána korelace a kovariance. Vzniklá tzv. asociační matice parametrů e podkladem pro faktorovou analýzu a analýzu hlavních komponent. Pro obekty lze ako měřítko vztahu použít metriky vzdálenosti nebo koeficienty podobnosti. Míry podobnosti nabývaí své maximální hodnoty v případě identických obektů a minimální hodnoty nabývaí tehdy, když sou dva obekty zcela odlišné. U vzdáleností e tomu obráceně. V případě potřeby lze podobnost převést na vzdálenost. 4. Asociační koeficienty mezi proměnnými Vztah dvou proměnných x a y můžeme hodnotit pomocí Pearsonova korelačního koeficientu r. r xy = i= n i= n ( x x )( y i i ( x x ) n i= i y ) ( y y ) i, (4.) kde x i e e hodnota proměnné (veličiny) X naměřené (pozorované) na i-tém obektu a x e průměr dané proměnné, y i e hodnota i-tého obektu proměnné y a y e průměr dané proměnné. Hodnoty tohoto koeficientu se pohybuí v intervalu <-, >. Čím e hodnota Pearsonova korelačního koeficientu bližší edné, tím e silněší pozitivní lineární závislost mezi proměnnými x a y. Čím e bližší mínus edné, tím e silněší negativní lineární závislost mezi těmito proměnnými. Pearsonův korelační koeficient se používá tehdy, když předpokládáme normální rozdělení hodnot proměnných. V případě, že proměnné nevyhovuí podmínce normality rozložení (např. když sou hodnoty proměnných měřeny na ordinální škále), můžeme použít Spearmanův korelační koeficient r s. n s xy = ( Ri Qi ) n( n ) i= r 6, (4.) kde R, R n sou pořadí prvků proměnné x a podobně Q, Q n sou pořadí prvků proměnné y, n e počet obektů. Hodnoty tohoto koeficientu se také pohybuí v intervalu <-, > a eho interpretace e stená ako u Pearsonova korelačního koeficientu. Intenzitu vztahu dvou proměnných x a y můžeme hodnotit také pomocí kovariance. Kovariance není na rozdíl od korelačního koeficientu standardizovaná vzhledem k rozdílným měřítkům proměnných. Kovariance může nabývat hodnot z intervalu (, ). n sxy = ( xi x )( yi y ) (4.3) ( n ) i= 5

16 4. Asociační koeficienty mezi obekty metriky vzdálenosti Vztahy mezi obekty lze vyádřit pomocí metrik vzdálenosti. Jeich společnou vlastností e, že maximální hodnotu dosahuí dva obekty, které sou nevíce odlišné a obekty identické maí vzdálenost nulovou. Vzdálenost budeme dále označovat symbolem D. Metriky (metrics) musí splňovat následuící kriteria: když sou obekty shodné, eich vzdálenost e 0. Když a = b, tak D(a,b) = 0; když obekty nesou shodné, eich vzdálenost e kladné číslo. Když a b, tak D(a,b) > 0; platí symetrie, vzdálenost obektu a od b e stená ak vzdálenost obektu b od a. D(a,b) = D(b,a); platí troúhelníková nerovnost, t. součet dvou stran troúhelníka e vždy roven nebo větší než strana třetí. D(a,b) + D(b,c) D(a,c). Semimetriky (pseudometriky, semimetrics) nevyhovuí druhé podmínce, tedy neplatí když a b, tak D(a,b) > 0. Mnohé koeficienty podobnosti (S) lze převést na vzdálenosti pomocí transformace D = S nebo D = S a výsledkem sou často semimetrické nebo nemetrické koeficienty vzdáleností. Následuící text shrnue základní metriky vzdálenosti. Euklidovská metrika (Euclidean distance) Jde o nepoužívaněší míru vzdálenosti. Je založena na Pythagorově větě. Metoda e citlivá na rozdílný rozsah hodnot vstupuících proměnných (vhodným řešením může být standardizace) a problém dvou nul. Nemá horní hranici hodnot. Obrázek 4. znázorňue euklidovskou vzdálenost dvou obektů v prostoru dvou proměnných. p D ( x,x ) = ( y y ), (4.4) = kde y a y označuí souřadnice vektorů x a x. proměnná y y x y x y y proměnná y Obr. 4. Výpočet Euklidovské vzdálenosti mezi obekty x a x. Jako další měřítko se také používá čtverec této vzdálenosti. Jeho nevýhodou sou semimetrické vlastnosti. p D ( x,x ) = ( y y ) (4.5) = 6

17 Průměrná Euklidovská metrika (average distance) Euklidovská vzdálenost nemá horní hranici. Aby mohly být zahrnuty proměnné s různým rozsahem hodnot, e vhodné e před výpočtem standardizovat nebo transformovat. V případě hodnocení vzdálenosti společenstev na základě abundancí druhů bylo navrženo několik modifikací euklidovské vzdálenosti tak, aby odstranily nedostatky této metriky. Vliv počtu proměnných (v tomto případě druhů) e minimalizovaný tak, že euklidovská vzdálenost e přepočtena na počet proměnných. p D ( x,x ) = ( y y ) (4.6) p = nebo Tětivová metrika (chord distance) D ( x,x ) = D. (4.7) Tětivová vzdálenost e euklidovská vzdálenost po standardizaci na ednotkovou délku vektoru. Jeí hodnoty se v případě nezáporných proměnných pohybuí od nuly po druhou odmocninu z počtu proměnných. Při výpočtu počítá pouze s poměry proměnných v rámci ednotlivých obektů (vzorků). Jde vlastně o euklidovskou vzdálenost počítanou pro vektory obektů standardizované na délku edna (obr. 4.), nebo e možný přímý výpočet, který iž zahrnue standardizaci. Odstraňue problém dvou nul a vliv rozdílného rozpětí proměnných v obektech při výpočtu euklidovské vzdálenosti. p y y = D 3( x,x ) = (4.8) p p y y = = Obr. 4. Ukázka výpočtu tětivové vzdálenosti a geodetické metriky v prostoru dvou proměnných. Geodetická metrika (geodesic metric) Transformace tětivové vzdálenosti e známá ako geodetická metrika. Počítá délku oblouku ednotkové kružnice mezi normalizovanými vektory (viz tětivová vzdálenost, obr. 4.). D = 3 ( x,x ) D 4( x,x ) arccos (4.9) Mahalanobisova metrika Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi proměnnými a e nezávislá na rozsahu hodnot proměnných. Respektue rozdílnou variabilitu a také korelační strukturu 7

18 v datech. Počítá vzdálenost mezi obekty v systému souřadnic, ehož osy nemusí být na sebe kolmé. V praxi se používá pro zištění vzdálenosti mezi skupinami obektů. Jsou dány dvě skupiny obektů w a w o n a n počtu obektů a popsané p parametry: D5 ( w,w ) dv d =, (4.0) kde d e vektor rozdílů mezi průměry p proměnných ve dvou skupinách obektů. V e vážená disperzní matice (matice kovariancí proměnných) uvnitř skupin obektů. V = [( n ) V + ( n ) V ], n + n (4.) kde V a V sou disperzní matice ednotlivých skupin. Vektor d měří rozdíl mezi p- rozměrnými průměry skupin v p-rozměrném prostoru a V vkládá do rovnice kovarianci mezi proměnnými. Minkowského metrika (Minkowski s metric) Je obecnou formou výpočtu vzdálenosti. Zahrnue v sobě několik metrik ako speciální případy. Podle zadaného koeficientu může odpovídat např. euklidovské nebo manhattanské metrice. Se stoupaícím koeficientem umocňování stoupá významnost větších rozdílů. Existue eště obecněší forma, kdy e koeficient umocňování a odmocňování zadáván zvlášť. p λ λ D 8( x,x ) = y y, (4.) = kde λ e celé číslo. V případě, že λ =, de o euklidovskou vzdálenost. V ekologii se nepoužívá číslo λ větší než, protože mocniny větší než dávaí příliš velkou důležitost nevětší odchylce y y. Manhattanská metrika (Manhattan metric, city-block metric) Základní forma Minkowského metriky, při λ = e známá ako manhattanská vzdálenost. Jde vlastně o součet rozdílů ednotlivých proměnných, které obekty popisuí. p = 8 D 6 ( x,x ) = y y (4.3) Průměrná manhattanská metrika (mean character difference) Podobně, ako sme to viděli u euklidovské vzdálenosti, máme i u manhattanské vzdálenosti možnost minimalizovat vliv počtu proměnných a přepočítat manhattanskou vzdálenost na počet proměnných. Jeí výhodou e, že se hodnota nezvyšue s rostoucím počtem proměnných. p D 7( x,x ) = y y (4.4) p Vážená euklidovská metrika = Všechny míry odvozené od Minkowského metriky maí společné nevýhody. Jde o iž představenou závislost na použitých ednotkách měření, které někdy brání smysluplnému získání akéhokoliv součtu pro různé proměnné, ale také o to, že když sou proměnné uvažovány v součtu se stenými váhami, silně korelované proměnné maí nepřiměřeně velký vliv na výsledek. Právě proto se někdy používá vážená euklidovská vzdálenost.

19 kde w e váha proměnné. p D 9 ( x,x ) = w ( y y ), (4.5) = Whittakerův asociační index (Whittaker s index of association) Je dobře použitelný pro data abundancí. Každý druh (proměnná) e neprve transformován na svů podíl ve společenstvu (v tomto případě společenstvo druhů tvoří součet hodnot všech proměnných ve vzorku obektu). Následuící výpočet e opět obdobou manhattanské vzdálenosti. Doplňkem asociačního indexu e následuící vzdálenost: D0( x,x ) = p y p = Jeí hodnota e v případě identických proporcí druhů (proměnných) rovna 0. = y p y = y. (4.6) Canberrská metrika (Canberra metric) Varianta manhattanské vzdálenosti používaná v ekologických studiích. Před výpočtem musí být odstraněny dvoité nuly a metrika imi tedy není ovlivněna. Zaímavé e, že stený rozdíl mezi početnými druhy ovlivňue tuto vzdálenost méně než ten stený rozdíl mezi druhy vzácněšími. Ani tato vzdálenost nemá horní hranici. p y = ( ) y D ( x,x ) = (4.7) y + y Koeficient divergence (coefficient of divergence) Koeficient divergence e obdobná metrika ako D, ale e založena na euklidovské vzdálenosti a vztažena na počet proměnných. Také se používá na ekologická data druhových abundancí po odstranění dvoích nul z výpočtu (a tedy i z hodnoty počtu proměnných p). χ metrika D ( x,x ) = p p = y y y + y (4.8) První ze skupiny metrik založených na χ využívaném pro výpočet vzdáleností kontingenčních tabulek, a tedy frekvenčních dat. Příkladem takových dat může být matice lokalit (obekty) charakterizovaná abundancemi nebo frekvencemi druhů (proměnné). V matici nesou přípustné žádné záporné hodnoty. Data původní matice abundancí/frekvencí y sou neprve přepočítána do matice poměrných frekvencí tak, že řádkové součty sou rovny edné (druhy sou na lokalitě vyádřeny svým poměrným zastoupením, tedy relativní frekvenci). Jako dodatečné charakteristiky p n uplatňované při výpočtu sou spočteny součty y i a sloupců y i celé matice n (i) lokalit x p () = druhů. Výpočet odstraňue problém dvou nul. Neednodušším výpočtem e obdoba euklidovské vzdálenosti i= 9

20 0 = = = = p p p y y y y ),x x D(, (4.9) která e dále vážena součty ednotlivých druhů = = = = = p p p n i i y y y y y ),x x ( D 4. (4.0) Tuto metriku e možné využít i pro měření vzdáleností mezi druhy na základě eich rozložení na lokalitách. χ relativní metrika Výpočet e podobný χ metrice, ale vážení e prováděno relativní četností řádku v matici místo eho absolutního součtu. Při výpočtu se užívá hodnota = = p n i y i (celkový součet matice). χ vzdálenost e využívána také při výpočtu vztahů řádků a sloupců kontingenční tabulky. = = = = = = = = = = = = = = p p p n i i p n i i p p p p n i i n i i y y y y y y y y y y y y ),x x ( D 5 (4.) Metrika podobnosti ras (coefficient of racial likeness) Umožňue srovnávat skupiny obektů, podobně ako Mahalanobisova vzdálenost, ale na rozdíl od ní neeliminue vliv korelace proměnných. Dvě skupiny obektů w a w s počtem obektů n a n sou charakterizovány průměrem proměnných ve skupinách i y a rozptylem proměnných ve skupinách i s. Tento koeficient byl vyvinut pro potřeby antropologických studií. ( ) p n s n s y y p ) w,w ( D p 3 + = = (4.)

21 4.3 Asociační koeficienty mezi obekty koeficienty podobnosti Koeficienty podobnosti sou používány k měření asociací mezi obekty. Oproti většině koeficientů vzdálenosti nesou nikdy metrické, díky čemuž e vždy možno nalézt dva obekty, A a B, které sou více podobné než suma eich podobností s iným, více vzdáleným obektem C. Z toho vyplývá, že podobnosti nemohou být přímo využity k umístění obektů v metrickém prostoru; musí být převedeny na vzdálenosti. Matice podobností často tvoří základ shlukovacích metod. Koeficienty podobnosti byly neprve vyvinuty pro binární data (data typu prezence/absence; ano/ne). S pozděším rozvoem počítačů byly generalizovány i pro vícestavové proměnné. Další rozdělení koeficientů podobnosti e určeno ošetřením tzv. problému dvou nul (double zero problem). Symetrické koeficienty podobnosti se používaí v případě, že nulový stav reprezentue stený druh informace ako kterákoliv iná hodnota, a tedy není en označením chyběících údaů. Proto tyto koeficienty není vhodné používat v ekologických studiích k hodnocení proměnných, které představuí např. přítomnost/nepřítomnost druhů. Asymetrické koeficienty podobnosti neuvažuí duplicitní nulové hodnoty u srovnávaných obektů ako informaci o podobnosti. Uplatnění asymetrických koeficientů e zeména v ekologických studiích, kde proměnné představuí druhy a hodnocení společné prezence a absence není symetrické. Na druhé straně přítomnost druhu pouze v ednom ze dvou obektů naznačue rozdíl mezi těmito obekty. Nedříve se budeme věnovat binárním koeficientům, t. těm, které pracuí s binárními proměnnými (data typu prezence/absence, ano/ne, atd.). U binárních dat dochází k následuícím případům u dvou srovnávaných obektů (tabulka 4.). Tabulka 4. Hodnoty šesti binárních proměnných (pr. až pr. 6) u dvou obektů x a x. pr. pr. pr. 3 pr. 4 pr. 5 pr. 6 obekt (x ) 0 0 obekt (x ) označení stavu b c a b a d Pozorované stavy můžeme sumarizovat ve frekvenční tabulce (tabulka 4.) rozměru x se čtyřmi póly obsahuící tyto početnosti (symboly a, b, c, d označuí počty výskytu stavu a, b, c, d): a počet proměnných, které nabývaí pro oba obekty hodnotu b počet proměnných, které nabývaí u i-tého obektu a u -tého obektu 0 c počet proměnných, které nabývaí u i-tého obektu 0 a u -tého obektu d počet proměnných, které nabývaí pro oba obekty hodnoty 0 Platí a + b + c + d = p. Tabulka 4. Sumarizace tabulky 4. ve frekvenční tabulce. obekt x 0 obekt x a b a + b 0 c d c + d a + c b + d p V našem příkladě z tabulky (tabulka 4.) sou tyto početnosti: a =, b =, c, d =.

22 4.3. Symetrické binární koeficienty Základem všech indexů podobnosti pro kvalitativní binární data e, že dva obekty sou si vzáemně více podobné, když maí více souhlasných binárních proměnných, a méně podobné, když e více proměnných unikátních pro eden obekt. Při určení podobnosti dvou obektů budeme tedy pozorovat u p proměnných eich společnou přítomnost, resp. absenci v obektech. Jednoduchý srovnávací koeficient (simple matching coefficient) e obvyklou metodou pro výpočet podobnosti mezi dvěma obekty. Jde o podíl počtu proměnných, které kóduí obekt steně a celkového počtu proměnných. a + d S ( x,x ) = (4.3) p Koeficient patří do skupiny symetrických binárních koeficientů. Koeficienty této skupiny dávaí stenou váhu pozitivní shodě (-) i negativní shodě (0-0). Další variantou tohoto koeficientu e eho alternativa, která přiřazue větší důležitost rozdílům než shodám (Rogers a Tanimoto). a + d S ( x,x ) = (4.4) a + b + c + d Další čtyři navržené koeficienty berou v úvahu dvoí nuly, ale sou navrženy tak, aby se snížil vliv problému dvou nul (Sokal a Sneath): a + d S3( x,x ) =, (4.5) a + b + c + d tento koeficient dává dvakrát větší váhu shodným proměnným než rozdílným; a + d S4 ( x,x ) = (4.6) b + c porovnává shody a rozdíly prostým podílem v měřítku, které nabývá hodnot od nuly do nekonečna; a a d d S5 ( x,x ) = (4.7) 4 a + b a + c b + d c + d porovnává shodné deskriptory se součty okraů tabulky; a d S6 ( x,x ) = (4.8) ( a + b )( a + c ) ( b + d )( c + d ) e vytvořen z geometrických průměrů členů vztahuících se k a a d, podle koeficientu S Asymetrické binární koeficienty V některých případech nelze dávat stenou váhu pro společnou prezenci (-) a absenci (0-0) proměnných (např. druhů) v obektech. Pro tyto případy byly vyvinuty asymetrické binární koeficienty. Ty se steně ako předchozí symetrické koeficienty používaí ke srovnání obektů, v ekologii běžně ke srovnání vzorků nebo lokalit na základě druhového složení. Používaí se zde pro data prezence/absence druhů. Ve výpočtu nesou zahrnuty proměnné, které u obou srovnávaných obektů nabývaí nulové hodnoty. Neznáměší z asymetrických koeficientů sou Jaccardův a Sørensenův koeficient.

23 Jaccardův koeficient (Jaccard s coefficient) dává všem členům stenou váhu. a S7 ( x,x ) = (4.9) a + b + c Sørensenův koeficient (Sørensen s coefficient) Sorensenův koeficient e variantou Jaccardova koeficientu, dává ovšem dvonásobnou váhu dvoitým výskytům. Přítomnost druhů e více informativní než eich nepřítomnost, která může být způsobena různými faktory a nemusí nutně odrážet rozdílnost prostředí. Výskyt druhu na obou lokalitách e silným ukazatelem eich podobnosti. Jaccardův koeficient e monotónní k Sorensenovu koeficientu, proto podobnost pro dvě dvoice obektů vypočítaná podle S 7 bude podobná stenému výpočtu S 8. Oba koeficienty se liší pouze v měřítku. Jiná varianta tohoto koeficientu dává společným výskytům tronásobnou váhu. a S8 ( x,x ) = (4.30) a + b + c 3a S9 ( x,x ) = (4.3) 3 a + b + c Řada dalších koeficientů dává různou váhu ednotlivým kombinacím proměnných. Jako doplněk koeficientu S byl navržen koeficient, který dává dvonásobnou váhu rozdílům ve menovateli (Sokal a Sneath). a S ( x,x ) = 0 a + b + c (4.3) Další koeficient umožňue porovnat počet společných výskytů proti celkovému počtu proměnných (druhů) ve všech obektech, včetně proměnných (druhů), které nabývaí nulové hodnoty v obou uvažovaných obektech (d). (Russel a Rao) a S ( x,x ) = (4.33) p Další koeficient porovnává duplicitní prezence s diferencemi (Kulczynski). a S ( x,x ) = (4.34) b + c Dalším koeficientem e (Sokal a Sneath): a a S3 ( x,x ) = +, (4.35) a + b a + c kde sou duplicitní prezence srovnávány se součty okraů tabulky (a+b) a (a+c). Obdobou symetrického koeficientu S 6 tak, aby byl odstraněn problém dvou nul e koeficient, který ako míru podobnosti používá geometrický průměr poměrů a k počtu druhů v každém obektu, t. se součty okraů tabulky (a+b) a (a+c) (Ochiachi). a S4 ( x,x ) = (4.36) a + b a + c ( )( ) 3

24 4.3.3 Symetrické kvantitativní koeficienty V biologii se můžeme kromě binárních proměnných setkat i s multistavovými kvalitativními nebo kvantitativními proměnnými. Pro takové případy mohou být využity koeficienty, které vznikly rozšířením binárních koeficientů, aby se přizpůsobily multistavovým proměnným. Modifikovaný ednoduchý srovnávací koeficient (simple matching coefficient) Modifikovaný ednoduchý srovnávací koeficient může být použit pro multistavové proměnné. Čitatel obsahue počet proměnných, pro které sou dva obekty ve steném stavu. shoda S ( x,x ) = (4.37) p Např. e-li dvoice obektů popsána následuícími deseti multistavovými proměnnými (tabulka 4.3), potom hodnota koeficientu S, vypočítaná pro 0 multistavových proměnných bude S (x,x ) = 4 shody/0 proměnných = 0,4. Tabulka 4.3 Ukázka výpočtu ednoduchého srovnávacího koeficientu pro multistavové proměnné. proměnné Σ obekt x obekt x shoda Podobným způsobem e možné rozšířit všechny binární koeficienty pro multistavové proměnné. Gowerův obecný koeficient podobnosti V případě, že máme obekty popsány několika kvantitativními a několika kvalitativními proměnnými, lze použít Gowerův koeficient podobnosti, který zahrnue podobnost podle různých typů proměnných binárních, kvalitativních a semikvantitativních i kvantitativních. Podobnost mezi dvěma obekty e vypočítána ako průměr podobností vypočítaných pro všechny proměnné (těmito proměnnými mohou být např. druhy nebo i environmentální proměnné). p S5( x,x ) = s (4.38) p = Pro každou proměnnou e hodnota parciální podobnosti s mezi obekty x a x vypočítána následovně: Pro binární proměnné s = (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu, symetrickou i asymetrickou. Následuící forma e symetrická, dává s = případům nepřítomnosti binární charakteristiky dvou obektů (0-0). Druhá forma, Gowerův asymetrický koeficient, dává případům 0-0 s = 0. Kvalitativní a semikvantitativní proměnné sou upraveny podle ednoduchého srovnávacího pravidla zmíněného výše: s = při souhlasu a s = 0 při nesouhlasu proměnných. Případy shodné nepřítomnosti binární charakteristiky dvou obektů (problém dvou nul) sou ošetřeny steně ako v předchozím případě. Kvantitativní deskriptory (reálná čísla) sou zpracovány následovně: pro každou proměnnou se neprve vypočte rozdíl mezi stavy obou obektů y y, steně ako v případě koeficientu vzdálenosti patřícího do skupiny Minkowského metrik. Tento rozdíl e poté vydělen nevětším rozdílem R nalezeným pro danou proměnnou mezi všemi obekty ve studii (nebo v referenční 4

25 populaci doporučue se vypočítat nevětší rozdíl R každé proměnné pro celou populaci, aby byla zaištěna konzistence výsledků pro všechny parciální studie). Z tohoto podílu e normalizovaná vzdálenost odečtena od edné, aby byla transformována na podobnost. y y s = (4.39) R Gowerův koeficient může být nastaven tak, aby zahrnoval vážení významu proměnných. U proměnných, u nichž chybí informace buď u ednoho, nebo u druhého obektu, není vypočítáno žádné porovnání. Toto zaišťue člen w, nazývaný Kroneckerovo delta, který popisue přítomnost/nepřítomnost informace v obou obektech: e-li informace o proměnné y přítomna u obou obektů, tak w =, inak w = 0. Konečná forma Gowerova koeficientu pak vypadá takto: p w s = S5 ( x,x ) = p. (4.40) w = Další přiblížení ke komplexnosti umožňue vážení různých proměnných, t. přiřazení čísla z intervalu <0,> parametru w. Při výpočtu Gowerova koeficientu musíme dobře zvážit, které semikvantitativní proměnné zpracueme ako kvantitativní a které nikoliv. Gowerův koeficient nabývá hodnot podobnosti od nuly do edné, kde edna značí nevětší podobnost obektů. Tabulka 4.4 Ukázka výpočtu Gowerova koeficientu. Proměnné Σ obekt x obekt x R w 0 7 y y /R w s S ( x,x ) = / 7 = 0 66 (podle [6]). 5. Pro ilustraci výpočtu koeficientu uvádíme dva obekty (plochy x a x ) popsány osmi kvantitativními chemickými proměnnými p, pro které e známý maximální rozdíl R z celé vzorkované plochy (tabulka 4.4). Další obecný koeficient podobnosti, steně ako Gowerův koeficient, počítá podobnost dvou obektů ako podíl sumy parciálních podobností proměnných a počtu těchto proměnných (Estabrook a Rogers). Obecný zápis tohoto koeficientu e proto stený ako S 5 : p w s = S6 ( x,x ) = p (4.4) w = a steně ako u S 5 mohou být parametry w (mezi 0 a ) opět využity ako váhy místo toho, aby pouze hrály roli Kroneckerova delta. Koeficient se liší výpočtem parciálních podobností s. V původní podobě byly stavové hodnoty kladná celá čísla a proměnné byly buď uspořádané, nebo neseřazené. U tohoto koeficientu e parciální podobnost dvou obektů pro danou proměnnou vypočítána použitím monotónní klesaící funkce částečné podobnosti. Na základě zkušeností autoři navrhli použít funkci dvou čísel d a k: 5

26 ( d ) k + ( d,k ) = k + = f ( d, k ) 0 s = f pro d k + dk s pro d > k, = (4.4) kde d e vzdálenost mezi dvěma stavy obektů x a x pro proměnnou, t. steně ako v Gowerově koeficientu y y a k e parametr určený a priori uživatelem pro každou proměnnou, který popisue, aká maximální velikost nenulové parciální podobnosti e dovolena. Parametr k (obvykle malé číslo) e roven nevětšímu rozdílu d, pro který parciální podobnost s proměnné může být nenulová. Autoři vytvořili i další míru parciální podobnosti s pro funkci S 6, pro případ, že by funkce f(d,k) nepopisovala správně vztahy mezi obekty proměnné. Tato modifikace poskytue výhodný nástro zvláště při použití kvalitativních nebo semikvantitativních proměnných Asymetrické kvantitativní koeficienty Steně ako v předchozí části se neprve zmíníme o možnostech rozšíření binárních koeficientů na multistavové. Jaccardův koeficient shoda S7( x,x ) =, (4.43) p d kde v čitateli e počet proměnných se stenou hodnotou v porovnávaných obektech. Tento koeficient můžeme použít v případě, že proměnné sou kódovány malým počtem tříd a my chceme získat velké kontrasty v rozdílech v hodnotách. V iných případech samozřemě použitím takovéhoto koeficientu dode ke ztrátě části informace nesené hodnotami ednotlivých proměnných. V ekologických studiích, kde sou proměnné reprezentovány abundancemi druhů, e často nutná odmocninová nebo logaritmická transformace proměnných, protože distribuce druhových abundancí v ekologickém gradientu e často velmi nerovnoměrná. Další možností e použití stupnice relativních abundancí s hranicemi vytvořenými v geometrické řadě např. od 0 (absence) do 7 (velmi četné zastoupení). Normalizované abundance lépe vyadřuí roli ednotlivých druhů v ekosystému než surová data abundancí. Některé koeficienty snižuí vliv velkých rozdílů a mohou proto být použity na původní data druhových abundancí, zatímco ostatní porovnávaící rozdíl v abundancích více lineárně e lépe aplikovat na normalizovaná data. Sørensenův kvantitativní koeficient (Bray-Curtis; Steinhaus by Motyka) Sørensenův kvantitativní koeficient (známý také pod názvem Brayův-Curtisův koeficient) se používá na data abundancí druhů. Patří mezi klasické kvantitativní koeficienty. W W S7 ( x,x ) = = (4.44) ( A + B ) / A + B W e součet minimálních abundancí ednotlivých druhů, A a B sou součty abundancí všech druhů ve dvou srovnávaných obektech, t. celkový počet edinců v každém vzorku (tabulka 4.5). 6

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Více

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA Vzorky Druhy druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 vztahy mezi vzorky Q analýza vztahy mezi

Více

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 000/00 Michal Marvan 3. Matice lineárního zobrazení V této přednášce budeme používat indexy dvoího druhu:

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

pravděpodobnosti, popisné statistiky

pravděpodobnosti, popisné statistiky 8. Modelová rozdělení pravděpodobnosti, popisné statistiky Rozdělení pravděpodobnosti Normální rozdělení jako statistický model Přehled a aplikace modelových rozdělení Popisné statistiky Anotace Klasickým

Více

Náhodné vektory a matice

Náhodné vektory a matice Náhodné vektory a matice Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Symbolika A B Jev jistý S (nastane

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.

Více

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013 Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika Podrobnější rozpis okruhů otázek pro třetí část SZZ Verze: 13. června 2013 1 Úvodní poznámky 6 Smyslem SZZ by nemělo být toliko

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

ρ = 0 (nepřítomnost volných nábojů)

ρ = 0 (nepřítomnost volných nábojů) Učební text k přednášce UFY Světlo v izotropním látkovém prostředí Maxwellovy rovnice v izotropním látkovém prostředí: B rot + D rot H ( r, t) div D ρ rt, ( ) div B a materiálové vztahy D ε pro dielektrika

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

4.6.2 Analýza shluků CLU

4.6.2 Analýza shluků CLU 462 Analýza shluků CLU Analýza shluků (Cluster analysis CLU) patří mezi metody které se zabývaí vyšetřo-váním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Náhodný vektor, mnohorozměrné rozdělení AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární

Více

Vícerozměrná rozdělení

Vícerozměrná rozdělení Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice.

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Interní norma č /01 Stupeň kotonizace lýkových vláken

Interní norma č /01 Stupeň kotonizace lýkových vláken Předmluva Text vnitřní normy byl vypracován v rámci Výzkumného centra Textil LN00B090 a schválen oponentním řízením dne 7.2.2004. Předmět normy Norma stanoví postup měření a hodnocení stupně kotonizace

Více

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz o rozdělení Testování hypotéz o rozdělení Nechť X e náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládeme, že neznáme tvar distribuční funkce

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Vícerozměrná analýza dat

Vícerozměrná analýza dat Jiří Jarkovský Plán n kurzu Každých 4 dní 4 vyučovací hodiny Ukončení zkouškou Písemná Zaměřená na principy a aplikace analýz Cíl kurzu Vysvětlit principy vícerozměrných analýz, jejich aplikaci v biologii

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Vztah pravděpodobnosti, statistiky a biostatistiky

Vztah pravděpodobnosti, statistiky a biostatistiky Vztah pravděpodobnosti, statistiky a biostatistiky V této kapitole dáme biostatistiku do kontextu s teorií pravděpodobnosti, z níž biostatistika společně se statistikou vycházeí Cílem e zavést důležité

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Ordinační analýzy principy redukce dimenzionality Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Ordinační analýza a její cíle Cíle ordinační analýzy

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21 Příklad 1 Soutěž o nelepší akost výrobků obeslali čtyři výrobci A, B, C, D celkem 26 výrobky. Porota sestavila toto pořadí (uveden pouze původ výrobku od nelepšího k nehoršímu): Pořadí 1 2 3 4 5 6 7 8

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ 1 Vlastnosti tloušťkové struktury porostu tloušťky mají vyšší variabilitu než výšky světlomilné dřeviny mají křivku početností tlouštěk špičatější a s menší

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Tabulka 1. Výběr z datové tabulky

Tabulka 1. Výběr z datové tabulky 1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS

Více

Přednáška X. Testování hypotéz o kvantitativních proměnných

Přednáška X. Testování hypotéz o kvantitativních proměnných Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody

Více

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ

Více