Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší než 2 roky. Předpokládejme, že směrodatná odchylka Síla testu je pravděpodobnost, s jakou odhalíme statisticky významný rozdíl při platnosti alternativní hypotézy. Jestliže je síla testu příliš nízká, je malá pravděpodobnost odhalení signifikantního rozdílu, i když reálně existuje. Nízkou sílu testu často způsobuje nedostatečný rozsah výběru. Př.: Určeme minimální potřebný rozsah výběru pro provedení jednostranného testu, jestliže = 0,25; = 0,15; α = 0,05; 1 - β = 0,9. ( ( ) ( )) ( ( ) ( )) ( ) ( ) ( )
Analýza závislostí: - Kontingenční tabulka X/Y y 1 y 2 y S celkem x 1 n 11 n 12 n 1S n 10 x 2 n 21 n 22 n 2S n 20 X R n R1 n R2 n RS n R0 celkem n 01 n 02 n 0S N R počet řádků tabulky S počet sloupců tabulky N celkový počet prvků souboru n 01 až n 0S a n 10 až n R0 MARGINÁLNÍ ČETNOSTI (rozdělení znaků X a Y). K analyzování závislostí v kontingenční tabulce se využívá chí-kvadrát test (podle očekávaných četností) Popis testu: Předpokládáme, že jedny z marginálních četností (řádkové nebo sloupcové) jsou pevně dány. Provádíme výběr jednotek z několika populací a u každé statistické jednotky zjišťujeme hodnotu jediného nominálního znaku. Zajímá nás, zda jsou pravděpodobnosti výskytu jednotlivých hodnot ve všech populacích stejné. Hypot_ezy Hypotézy: H 0 : všechny řádky (sloupce) pocházejí ze stejné populace, ekvivalentně: relativní četnosti v každém řádku (sloupci) jsou stejné. Předpoklady testu: - Alespoň 80% očekávaných četností musí být větších než 5. - Všechny očekávané četnosti musí být větší než 1. - Nejsou-li předpoklady splněny, používají se tzv. exaktní testy. Př. Vraťme se k souboru dovolená, analyzujte závislost proměnných, Máte děti a Jste? H 0 : proměnné Máte děti a Jste jsou nezávislé - Ruční výpočet viz přednáška, popř. doporučená literatura k předmětu: ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ( ) ( )) Při testování na 5% hladině významnosti vypočtenou hodnotu statistiky, resp., porovnáváme s kvantilem [( )( )] [ ] Výpočet viz SPSS: Transform Compute Variable IDF.CHISQ(0.95,2) = 5,99 V obou případech jsme získali hodnotu mnohem vyšší než je vypočtená kritická hodnota. Zamítáme nulovou hypotézu. Kompletní výpočet pomocí SPSS: Rows: Máte děti Culomns: jste Statistics: Chi-square Zaškrtnout: Display cluster bar charts Máte děti? * Jste? Crosstabulation Count Jste? muž žena Total Máte děti? ano - 1 4 9 13 ano - 2-3 14 3 17 nemám 27 45 72 Total 45 57 102 df Chi-Square Tests Máte děti? * Jste? Crosstabulation Expected Count Jste? muž žena Total Máte děti? ano - 1 5,7 7,3 13,0 ano - 2-3 7,5 9,5 17,0 nemám 31,8 40,2 72,0 Total 45,0 57,0 102,0 Asymp. Sig. (2- sided) Pearson Chi-Square 12,299 a 2,002 Likelihood Ratio 12,830 2,002 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 5,74. Závěr: Zamítáme nulovou hypotézu o nezávislosti proměnných.
Př. Vraťme se k souboru dovolená, analyzujte závislost proměnných, Kde nejčastěji trávíte dovolenou a Jaký typ ubytování preferujete? H 0 : proměnné Kde nejčastěji trávíte dovolenou a Jaký typ ubytování preferujete jsou nezávislé Rows: Kde nejčastěji trevite dovolenou Culomns: Jaky typ ubytovani preferujete Statistics: Chi-square Zaškrtnout: Display cluster bar charts Count Kde nejčastěji trávíte dovolenou? * Jaký typ ubytování preferujete? Crosstabulation Jaký typ ubytování preferujete? hostely/hotely hotel hotel 4* apartmán/mobilhome 2* a méně 3* a více jiné vlastní Total Kde nejčastěji v ČR (včetně trávíte chalupaření) 13 1 7 9 3 6 39 dovolenou? v zahraničí 12 4 24 19 3 1 63 Total 25 5 31 28 6 7 102 Chi-Square Tests df Asymp. Sig. (2- sided) Pearson Chi-Square 13,400 a 5,020 Likelihood Ratio 13,738 5,017 a. 6 cells (50,0%) have expected count less than 5. The minimum expected count is 1,91. Závěr: nelze rozhodnout o výsledku testu 6 buněk 50% očekávaných četností je menších než 5. Nejsou splněny předpoklady testu.
Př.: Charakterizujme vztah proměnných Máte děti a jste pomocí symetrických koeficientů. Symetrické koeficienty (Pearsonův kontingenční koeficient, koeficient fí, Cramérovo V). V případě nezávislosti nabývají koeficienty hodnoty 0. Pomocí SPSS: Rows: Máte děti Culomns: jste Statistics: Contingency coeficient s Phi and Cramér s Symmetric Measures Approx. Sig. Nominal by Nominal Phi,347,002 Cramer's V,347,002 Contingency Coefficient,328,002 Výstupem je i minimální hladina významnosti, od které zamítáme nulovou hypotézu o nezávislosti proměnných (sloupec Approx.Sig.). Můžeme tedy říct, že ve všech případech usuzujeme na závislost mezi proměnnými Máte děti a Jste a to jak na 5%, tak i na 1% hladině významnosti.