5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza



Podobné dokumenty
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

KGG/STG Statistika pro geografy

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Jana Vránová, 3. lékařská fakulta UK

Úvodem Dříve les než stromy 3 Operace s maticemi

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Regresní a korelační analýza

INDUKTIVNÍ STATISTIKA

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Statistická analýza jednorozměrných dat

Testování hypotéz o parametrech regresního modelu

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Mnohorozměrná statistická data

Testování hypotéz o parametrech regresního modelu

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

6. Lineární regresní modely

Náhodný vektor a jeho charakteristiky

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

AVDAT Náhodný vektor, mnohorozměrné rozdělení

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Pravděpodobnost a aplikovaná statistika

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Přednáška X. Testování hypotéz o kvantitativních proměnných

Kontingenční tabulky. (Analýza kategoriálních dat)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Statistické metody uţívané při ověřování platnosti hypotéz

Mnohorozměrná statistická data

Porovnání dvou výběrů

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Analýza dat z dotazníkových šetření

Regresní a korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

Regresní a korelační analýza

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Měření závislosti statistických dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz a měření asociace mezi proměnnými

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Regresní a korelační analýza

12. cvičení z PST. 20. prosince 2017

Regresní analýza 1. Regresní analýza

McNemarův test, Stuartův test, Test symetrie

Příklad: Test nezávislosti kategoriálních znaků

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Poznámky k předmětu Aplikovaná statistika, 11. téma

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

PRAVDĚPODOBNOST A STATISTIKA

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Statistika II. Jiří Neubauer

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Výběrové charakteristiky a jejich rozdělení

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

4ST201 STATISTIKA CVIČENÍ Č. 7

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

y = 0, ,19716x.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Základy teorie pravděpodobnosti

Tomáš Karel LS 2012/2013

Analýza dat na PC I.

Transkript:

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně více náhodnými veličinami. V praxi se pracuje s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více hodnot bez uspořádání), ordinálními (nabývají více hodnot s uspořádáním) a kardinálními (nabývají více hodnot s uspořádáním a lze měřit rozdíly mezi hodnotami). Pro různé typy dat je třeba používat různé matematické postupy vhodné pro zjišťování souvislostí a závislostí. Úkolem statistiky je stanovit sílu a druh sledovaných závislostí. Síla závislosti se vyjadřuje podle různých měr statistických závislostí. Statistická závislost však nevypovídá přímo o kauzalitě. Vysoký stupeň závislosti může, ale nemusí odrážet příčinný vztah mezi sledovanými statistickými veličinami. Příčinné souvislosti čistě empirickými prostředky neodhalíme. Ke statistickým výsledkům je třeba přidat odborné znalosti, praktické zkušenosti a účelně kombinovat deduktivní a induktivní způsob uvažování. Existují i jednoznačné funkční závislosti mezi náhodnými veličinami, ty však obvykle nejsou hlavním cílem statistického šetření (např. závislosti založené na fyzikálních zákonech - dodávané teplo zvyšuje energii). Druh statistické závislosti se odhaduje obvykle na základě grafické reprezentace dat. V případě závislosti dvou náhodných proměnných je vyjádřením druhu závislosti křivka, která se nejvíce hodí k napozorovaným hodnotám. Podle typu křivky se lze bavit o závislosti lineární, logaritmické, exponenciální atd. Typ proměnné Nominální Ordinální Kardinální kontingenční tabulky 2x2, nezávislost, homogenita výběru, probitová, logitová Nominální symetrie, rezidua, kontingenční tabulky, regrese, kontingenční grafická reprezentace, loglineární modely tabulky, kontingenční znaménková koeficienty schémata, míry asociace Ordinální -- Spearmanův korelační koeficient, Kendallovo τ analýza rozptylu Kardinální -- -- Tabulka 1: Vícerozměrná data korelace, korelační koeficienty, regresní analýza 1

5.2 Kontingenční tabulky Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. V praxi vzniká kontingenční tabulka tak, že se na statistických jednotkách sledují dva znaky. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. V příslušné buňce kontingenční tabulky je pak zařazen počet případů, kdy zároveň měl první znak hodnotu odpovídající příslušnému řádku a druhý znak hodnotu odpovídající příslušnému sloupci. Je možné, aby jeden řádek či sloupec odpovídal více možným hodnotám znaku. To se děje v případě, kdy znak nabývá některých hodnot příliš zřídka, takže je vhodné spojit více možných hodnot. Součty (mezisoučty) všech hodnot v každém řádku, resp. sloupci nesou informaci o počtu výskytů jevů, při nichž nabyl první (resp. druhý znak) příslušné hodnoty bez ohledu na hodnotu druhého (resp. prvního) znaku. Kromě prostého popisu četností kombinací hodnot dvou znaků nabízí kontingenční tabulka možnost testovat, zda mezi oběma znaky existuje nějaký vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin tzv. skupinové třídění). Teoretickým základem kontingenčních tabulek jsou matice pravděpodobností pro dvourozměrné náhodné vektory. 1 c 1 n11 n1c n1. 2 n21 n2c n2. r nr1 nrc nr. n.1 n.c n Tabulka 2: Kontingenční tabulka 1 c 1 p11 p1c p1. 2 p21 p2c p2. r pr1 prc pr. p.1 p.c 1 Tabulka 3: Matice pravděpodobností 2

Nechť náhodný vektor X = (X 1, X 2 ) má diskrétní rozdělení, přičemž veličina X 1 nabývá hodnot i = 1,2,, r a veličina X 2 nabývá hodnot j = 1,2,, s. Označme p ij = P(X 1 = i, X 2 = j); p i = p ij ; p j = p ij. j i Předpokládejme, že se uskutečnil náhodný výběr rozsahu n z tohoto rozdělení. Nechť n ij je počet těch případů, kdy se ve výběru vyskytla dvojice (i, j). Náhodné veličiny n ij mají pak sdružené multinomické rozdělení s parametrem n a s pravděpodobnostmi p ij. Matice (p ij ) i=1,2,,r;j=1,2,,s se nazývá matice pravděpodobností a matice (n ij ) i=1,2,,r;j=1,2,,s tvoří základ kontingenční tabulky. Označme n i = n ij ; n j = n ij j Číslům p i a p j se říká marginální pravděpodobnosti a hodnotám n i a n j marginální četnosti. Namísto dvou znaků lze sledovat obecně libovolné množství znaků. Kontingenční tabulka se pak tvoří pomocí stejného principu (v každém políčku je počet výskytů kombinací určitých hodnot jednotlivých znaků), avšak není již možné ji tak snadno znázornit. Ve vícerozměrné tabulce lze testovat mnohem víc typů závislostí mezi jednotlivými znaky, testování je však technicky mnohem komplikovanější než u dvojrozměrné tabulky. Excel: Zde je možnost vytvořit kontingenční tabulku pomocí příkazu COUNTIFS(oblast1; podmínka1; oblast2; podmínka2; ) nebo pomocí nabídky pro tvorbu kontingenční tabulky. i 5.2.1 Testy nezávislosti Nejčastější úlohou při analýze kontingenčních tabulek, je problém testování nezávislosti. Vzhledem k tomu, že dvě veličiny X, Y jsou nezávislé právě tehdy, když platí p ij = p i p j pro všechna i, j, formuluje se nulová hypotéza testu nezávislosti v kontingenční tabulce ve tvaru 3

H 0 : p ij = p i p j, i = 1,2, r; j = 1,2,, s. Testovací kritérium má následně tvar r s χ 2 = (n ij n i n j n i n j i=1 j=1 n n )2 a při platnosti nulové hypotézy má asymptoticky rozdělení χ 2, jehož počet stupňů volnosti je roven: ν = rs (r + s 2) = (r 1)(s 1). Pokud hodnota testovacího kritéria χ 2 2 χ (r 1)(s 1) (1 α) zamítáme hypotézu o nezávislosti veličin X a Y. Ke shodě s limitním rozdělením se požaduje, aby teoretické četnosti n i n j byly větší než 5. Není-li tato podmínka splněna, je nutno sloučit některé n sloupce, případně řádky v kontingenční tabulce. Analogicky jako v postupu pro test nezávislosti v kontingenční tabulce lze postupovat v případě testování homogenity multinomického rozdělení. Tento přístup lze uplatnit v okamžiku, kdy marginální řádkové četnosti jsou pevně stanoveny a i tý řádek v kontingenční tabulce má tzv. multinomické rozdělení s parametry n i, q i 1, q i 2,, q i s, kde q i 1, q i 2, jsou nějaké pravděpodobnosti splňující podmínku q i 1 + q i 2 + + q i s = 1. Hypotéza homogenity pak říká, že pravděpodobnosti q i 1, q i 2, nezávisí na řádkovém indexu i. Testovací kritérium a kritické hodnoty jsou pro tento test identické s veličinami pro test nezávislosti. 5.3 Čtyřpolní tabulky Je-li r = s = 2, potom se jedná o tzv. čtyřpolní kontingenční tabulku následujícího tvaru 1 2 1 n11 n12 n1. 2 n21 n22 n2. n.1 n.2 n Tabulka 4: Čtyřpolní tabulka Testovací kritérium pro test nezávislosti a test homogenity v této čtyřpolní tabulce má tvar χ 2 = n (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2 a pro ověření platnosti nulové hypotézy je porovnávána s kritickou hodnotou kvantilu 2 (1 α) chí-kvadrát rozdělení s počtem stupňů volnosti 1. χ ν=1 4

Zdrojová literatura: 1) Blanka Šedivá, přednášky KMA/STAV, ZČU v Plzni 2009. 2) Jiří Reif: Metody matematické statistiky, ZČU v Plzni 2004. 3) Jan Kožíšek, Barbora Stieberová: Statistika v příkladech, Dashofer Holding, Ltd. 2012. 5