5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně více náhodnými veličinami. V praxi se pracuje s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více hodnot bez uspořádání), ordinálními (nabývají více hodnot s uspořádáním) a kardinálními (nabývají více hodnot s uspořádáním a lze měřit rozdíly mezi hodnotami). Pro různé typy dat je třeba používat různé matematické postupy vhodné pro zjišťování souvislostí a závislostí. Úkolem statistiky je stanovit sílu a druh sledovaných závislostí. Síla závislosti se vyjadřuje podle různých měr statistických závislostí. Statistická závislost však nevypovídá přímo o kauzalitě. Vysoký stupeň závislosti může, ale nemusí odrážet příčinný vztah mezi sledovanými statistickými veličinami. Příčinné souvislosti čistě empirickými prostředky neodhalíme. Ke statistickým výsledkům je třeba přidat odborné znalosti, praktické zkušenosti a účelně kombinovat deduktivní a induktivní způsob uvažování. Existují i jednoznačné funkční závislosti mezi náhodnými veličinami, ty však obvykle nejsou hlavním cílem statistického šetření (např. závislosti založené na fyzikálních zákonech - dodávané teplo zvyšuje energii). Druh statistické závislosti se odhaduje obvykle na základě grafické reprezentace dat. V případě závislosti dvou náhodných proměnných je vyjádřením druhu závislosti křivka, která se nejvíce hodí k napozorovaným hodnotám. Podle typu křivky se lze bavit o závislosti lineární, logaritmické, exponenciální atd. Typ proměnné Nominální Ordinální Kardinální kontingenční tabulky 2x2, nezávislost, homogenita výběru, probitová, logitová Nominální symetrie, rezidua, kontingenční tabulky, regrese, kontingenční grafická reprezentace, loglineární modely tabulky, kontingenční znaménková koeficienty schémata, míry asociace Ordinální -- Spearmanův korelační koeficient, Kendallovo τ analýza rozptylu Kardinální -- -- Tabulka 1: Vícerozměrná data korelace, korelační koeficienty, regresní analýza 1
5.2 Kontingenční tabulky Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. V praxi vzniká kontingenční tabulka tak, že se na statistických jednotkách sledují dva znaky. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. V příslušné buňce kontingenční tabulky je pak zařazen počet případů, kdy zároveň měl první znak hodnotu odpovídající příslušnému řádku a druhý znak hodnotu odpovídající příslušnému sloupci. Je možné, aby jeden řádek či sloupec odpovídal více možným hodnotám znaku. To se děje v případě, kdy znak nabývá některých hodnot příliš zřídka, takže je vhodné spojit více možných hodnot. Součty (mezisoučty) všech hodnot v každém řádku, resp. sloupci nesou informaci o počtu výskytů jevů, při nichž nabyl první (resp. druhý znak) příslušné hodnoty bez ohledu na hodnotu druhého (resp. prvního) znaku. Kromě prostého popisu četností kombinací hodnot dvou znaků nabízí kontingenční tabulka možnost testovat, zda mezi oběma znaky existuje nějaký vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin tzv. skupinové třídění). Teoretickým základem kontingenčních tabulek jsou matice pravděpodobností pro dvourozměrné náhodné vektory. 1 c 1 n11 n1c n1. 2 n21 n2c n2. r nr1 nrc nr. n.1 n.c n Tabulka 2: Kontingenční tabulka 1 c 1 p11 p1c p1. 2 p21 p2c p2. r pr1 prc pr. p.1 p.c 1 Tabulka 3: Matice pravděpodobností 2
Nechť náhodný vektor X = (X 1, X 2 ) má diskrétní rozdělení, přičemž veličina X 1 nabývá hodnot i = 1,2,, r a veličina X 2 nabývá hodnot j = 1,2,, s. Označme p ij = P(X 1 = i, X 2 = j); p i = p ij ; p j = p ij. j i Předpokládejme, že se uskutečnil náhodný výběr rozsahu n z tohoto rozdělení. Nechť n ij je počet těch případů, kdy se ve výběru vyskytla dvojice (i, j). Náhodné veličiny n ij mají pak sdružené multinomické rozdělení s parametrem n a s pravděpodobnostmi p ij. Matice (p ij ) i=1,2,,r;j=1,2,,s se nazývá matice pravděpodobností a matice (n ij ) i=1,2,,r;j=1,2,,s tvoří základ kontingenční tabulky. Označme n i = n ij ; n j = n ij j Číslům p i a p j se říká marginální pravděpodobnosti a hodnotám n i a n j marginální četnosti. Namísto dvou znaků lze sledovat obecně libovolné množství znaků. Kontingenční tabulka se pak tvoří pomocí stejného principu (v každém políčku je počet výskytů kombinací určitých hodnot jednotlivých znaků), avšak není již možné ji tak snadno znázornit. Ve vícerozměrné tabulce lze testovat mnohem víc typů závislostí mezi jednotlivými znaky, testování je však technicky mnohem komplikovanější než u dvojrozměrné tabulky. Excel: Zde je možnost vytvořit kontingenční tabulku pomocí příkazu COUNTIFS(oblast1; podmínka1; oblast2; podmínka2; ) nebo pomocí nabídky pro tvorbu kontingenční tabulky. i 5.2.1 Testy nezávislosti Nejčastější úlohou při analýze kontingenčních tabulek, je problém testování nezávislosti. Vzhledem k tomu, že dvě veličiny X, Y jsou nezávislé právě tehdy, když platí p ij = p i p j pro všechna i, j, formuluje se nulová hypotéza testu nezávislosti v kontingenční tabulce ve tvaru 3
H 0 : p ij = p i p j, i = 1,2, r; j = 1,2,, s. Testovací kritérium má následně tvar r s χ 2 = (n ij n i n j n i n j i=1 j=1 n n )2 a při platnosti nulové hypotézy má asymptoticky rozdělení χ 2, jehož počet stupňů volnosti je roven: ν = rs (r + s 2) = (r 1)(s 1). Pokud hodnota testovacího kritéria χ 2 2 χ (r 1)(s 1) (1 α) zamítáme hypotézu o nezávislosti veličin X a Y. Ke shodě s limitním rozdělením se požaduje, aby teoretické četnosti n i n j byly větší než 5. Není-li tato podmínka splněna, je nutno sloučit některé n sloupce, případně řádky v kontingenční tabulce. Analogicky jako v postupu pro test nezávislosti v kontingenční tabulce lze postupovat v případě testování homogenity multinomického rozdělení. Tento přístup lze uplatnit v okamžiku, kdy marginální řádkové četnosti jsou pevně stanoveny a i tý řádek v kontingenční tabulce má tzv. multinomické rozdělení s parametry n i, q i 1, q i 2,, q i s, kde q i 1, q i 2, jsou nějaké pravděpodobnosti splňující podmínku q i 1 + q i 2 + + q i s = 1. Hypotéza homogenity pak říká, že pravděpodobnosti q i 1, q i 2, nezávisí na řádkovém indexu i. Testovací kritérium a kritické hodnoty jsou pro tento test identické s veličinami pro test nezávislosti. 5.3 Čtyřpolní tabulky Je-li r = s = 2, potom se jedná o tzv. čtyřpolní kontingenční tabulku následujícího tvaru 1 2 1 n11 n12 n1. 2 n21 n22 n2. n.1 n.2 n Tabulka 4: Čtyřpolní tabulka Testovací kritérium pro test nezávislosti a test homogenity v této čtyřpolní tabulce má tvar χ 2 = n (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2 a pro ověření platnosti nulové hypotézy je porovnávána s kritickou hodnotou kvantilu 2 (1 α) chí-kvadrát rozdělení s počtem stupňů volnosti 1. χ ν=1 4
Zdrojová literatura: 1) Blanka Šedivá, přednášky KMA/STAV, ZČU v Plzni 2009. 2) Jiří Reif: Metody matematické statistiky, ZČU v Plzni 2004. 3) Jan Kožíšek, Barbora Stieberová: Statistika v příkladech, Dashofer Holding, Ltd. 2012. 5