Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a jeho názorem na odstěhování se ze Šluknova. Případně změřte sílu závislosti vhodnou charakteristikou. Zjištěné údaje jsou uspořádané v následující tabulce. Pohlaví Názor na odstěhování ano dosud ne ne Součet muž 115 37 199 351 žena 1 41 54 415 Součet 35 78 453 766 Použeme test nezávislosti kategoriálních znaků, neboť obě proměnné, uspořádané v kontingenční tabulce, jsou slovní (kategoriální). 1) H : pohlaví respondenta a názor na odstěhování na sobě nezávisí H 1 : non H ) G = r s ( n n ) i= 1 j= 1 n n... teoretické četnosti; [( r 1)( s 1) ] χ, G, n h n... empirické četnosti; r... počet řádků kontingenční tabulky; s... počet sloupců kontingenční tabulky; h... menší z čísel (r-1) a (s-1). { } 3) W G; G > χ,95 ( ) W { G; G > 5,991}, h... min (r 1), (s 1) Výpočet parametru rozdělení χ : (r 1) (s 1) = (-1) (3-1) = 1 = 4) Aby bylo možné vypočítat hodnotu G, je třeba určit teoretické četnosti pro každé políčko kontingenční tabulky. To lze podle: ni n j n = n n1 n 1 351 35 př. n 11 = = = 17, 68 n 766 n1 n 351 78 n 1 = = = 35,74 atd. n 766 Teoretické četnosti n obsahuje následující tabulka: Pohlaví Názor na odstěhování ano dosud ne ne Součet muž 17,68 35,74 7,58 351 žena 17,3 4,6 45,4 415 Součet 35 78 453 766
Nyní mohu spočítat hodnotu testového kritéria G: 115 17,68 37 35,74 199 7,58 G = 17,68 35,74 7,58 = 1,653 ( ) ( ) ( ) ( 1 17,3) ( 41 4,6) ( 54 45,4) 5) G W nezamítáme H, nepřímáme H 1. 17,3 4,6 Na hladině významnosti 5 % nezamítáme předpoklad o nezávislosti pohlaví a názoru respondenta na odstěhování se ze Šluknova. Poznámka: Pokud by byla testem závislost prokázána, mohli bychom její sílu změřit např. pomocí Cramérova koeficientu kontingence C C. Procedura v SGP: Describe Categorical Data Contingency Tables!!! Pokud budeme příklad řešit přes SGP, není potřeba stanovovat kritický obor. Stačí uvést formulaci hypotéz, hodnotu testového kritéria, P-Value, porovnání P-Value s α, závěr testu (zamítáme x nezamítáme H ; přímáme x nepřímáme H 1 ) a slovní odpověď. 45,4 Příklad: Korelační analýza V rámci dotazníkového šetření ve Šluknově bylo zjištěno hodnocení možností sportovního a kulturního vyžití. Posuďte na hladině významnosti 5 %, zda jsou tato hodnocení korelovaná. Případně změřte sílu lineární závislosti vhodnou charakteristikou. Zjištěná data jsou uspořádána v následující tabulce. Sportovní Kulturní vyžití (y j ) vyžití (x i ) 1 3 4 n i. 1 1 1 1 5 3 1 3 6 4 4 6 5 1 1 n.j 4 4 1 Data jsou číselná, uspořádána v korelační tabulce, úkolem je posoudit, zda je mezi proměnnými lineární závislost použeme proto test hypotézy o nulové hodnotě korelačního koeficientu, protože korelační koeficient měří sílu lineární závislosti. Alternativní postup: Vystihnout závislost x a y pomocí sdružených regresních přímek; jejich vhodnost ověřit pomocí individuálních t-testů a celkového F-testu a následně vypočítat hodnotu koeficientu korelace a tu interpretovat.
1) H : Mezi hodnocením kulturního a sportovního vyžití není lineární závislost. (NEBO H : ρ yx =, tj. hodnota koeficientu korelace v základním souboru je nulová, což znamená, že neexistuje mezi x a y lineární závislost) H 1 : non H ) r t = yx n 1 r yx t t 3) W t; t t ( n ) t t ( n ) W W α α 1 { t;,5 ( 18) t t, 975 ( 18) } { t; t,11 t,11} 4) r yx =,58,58 18 t = 1,58 =,638 5) t W zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že mezi oběma hodnoceními existuje lineární závislost (korelace). Sílu lineární závislosti měříme pomocí koeficientu korelace tato charakteristika nás informuje nejen o síle lineární závislosti, ale zároveň i o směru této závislosti. r yx =,58 Lineární závislost mezi oběma hodnoceními je středně silná a přímá. To, že je závislost přímá, znamená, že jdou obě hodnocení stejným směrem, tj. čím vyšší je hodnocení sportovního vyžití, tím vyšší je hodnocení kulturního vyžití a naopak. Procedura v SGP: Describe Multivariate Methods Multiple-Variable Analysis (Correlations)!!! Pokud budeme příklad řešit přes SGP, není potřeba stanovovat kritický obor. Stačí uvést formulaci hypotéz, P-Value, porovnání P-Value s α, závěr testu (zamítáme x nezamítáme H ; přímáme x nepřímáme H 1 ) a slovní odpověď. DOPORUČUJI TENTO PŘÍKLAD ŘEŠIT V SGP ruční výpočet r yx je dost časově náročný.
Příklad: Regresní analýza Vystihněte závislost hodnocení úrovně a dostupnosti zdravotnictví na vzdělání respondenta pomocí vhodné regresní funkce a změřte sílu závislosti vhodnou charakteristikou. Uvažujte α =,5. Vzdělání (x i ) Hodnocení úrovně a dostupnosti zdravotnictví (y j ) 1 3 4 5 n i. bez vzdělání () 3 1 1 7 ZŠ (1) 3 54 4 34 18 SŠ bez M () 58 85 58 43 64 SŠ s M (3) 7 39 66 69 48 9 VOŠ (4) 1 6 8 8 7 3 VŠ (5) 8 1 6 6 VŠ postgrad. (6) 3 5 n.j 51 139 4 187 14 741 Můžeme si načrtnout bodový diagram, abychom alespoň zhruba tušili, jaká funkce by mohla být vhodná. Plot of Hodnoceni_zdrav vs Vzdelani 5 4 Hodnoceni_zdrav 3 1 1 3 4 5 6 Vzdelani Z tohoto bodového diagramu moc nepoznáme, můžeme tedy vypočítat určité statistické charakteristiky, které slouží pro posouzení vhodnosti dané regresní funkce (v SGP Relate Simple Regression procedura Comparison of Alternative Models ).
Comparison of Alternative Models Model Correlation R-Squared Reciprocal-Y -,159,53% Logarithmic-Y square root-x,153,34% Exponential,1445,9% Double square root,139 1,94% Reciprocal-Y squared-x -,1364 1,86% Square root-y,1334 1,78% Logarithmic-Y squared-x,157 1,58% Square root-x,148 1,56% Linear,114 1,47% Square root-y squared-x,117 1,37% Squared-X,173 1,15% Squared-Y,99,98% Squared-Y square root-x,988,98% Double squared,886,79% Reciprocal-Y square root-x <no fit> Vidíme, že žádný z modelů nevykazuje příliš vysokou hodnotu indexu determinace (R- Squared). Pro jednoduchost vyberme přímku (Linear). Rovnice regresní přímky, která popisuje závislost hodnocení zdravotnictví na vzdělání: Y =,999, 135x Nyní je třeba ověřit vhodnost parametrů regresní přímky pomocí individuálních t-testů a následně pomocí celkového F-testu otestovat vhodnost celé funkce. t-testy: (budou prováděny na základě výsledků z SGP) H : β = test parametru β : H1 : β t = 9,531 P-Value =, P-Value < α, tj. zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že parametr β je statisticky významný (je tedy přínosem pro danou funkci). H : β1 = test parametru β 1 : H1 : β1 t = 3,35 P-Value =,9 P-Value < α, tj. zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že parametr β 1 je statisticky významný (je tedy přínosem pro danou funkci). Celkový F-test: H : β = c, β1 = (H : přímka není vhodný model pro popis závislosti hodnocení zdravotnictví na vzdělání) H 1 : non H F = 11,5
P-Value =,9 P-Value < α, tj. zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že přímka je vhodná k vystižení závislosti hodnocení zdravotnictví na vzdělání. Sílu závislosti změříme pomocí indexu determinace: I =,15. Index determinace poukazuje na velmi slabou závislost (Jen 1,5 % z celkové variability závisle proměněné y je možné vysvětlit pomocí zvolené regresní přímky.). Poznámka: Nízká hodnota indexu determinace nemusí značit jen slabou závislost, může to též znamenat, že nebyla vybrána dobrá regresní funkce. To vidíme i v tomto případě, kdy sice oba t-testy i celkový F-test vyšly významné, ale pokud přímka dokáže popsat jen 1,5 % z celkové variability závisle proměnné, je to opravdu hodně málo a funkce není moc kvalitní. Pravdou je, že regresní funkce jsou vhodné zejména pro spojité numerické proměnné. Naše proměnné tuto podmínku nesplňují. V praxi bychom zřejmě volili jinou metodu pro popis závislosti y na x, např. analýzu rozptylu (takový příklad stihli jsme na přednášce).