4ST201 STATISTIKA CVIČENÍ Č. 8 analýza závislostí kontingenční tabulky test závislosti v kontingenční tabulce analýza rozptylu regresní analýza lineární regrese Analýza závislostí Budeme ověřovat existenci závislosti dvou kategoriálních proměnných kontingenční tabulky o např. závislost oblíbeného deníku a oblíbené televizní stanice, závislost průběhu choroby na tom, zda byl pacient očkován číselné proměnné na kategoriální proměnné analýza rozptylu o např. závislost příjmu na dosaženém vzdělání, závislost spotřeby auta na typu použitého benzinu číselné proměnné na jedné nebo více jiných číselných proměnných regresní analýza o např. závislost zisku firmy na počtu zaměstnanců, výši investic, objemu produkce, dvou číselných proměnných korelační analýzy o např. závislost výše pojistného na výši příjmu, závislost měsíčních výdajů domácnosti na počtu členů domácnosti Závislost 2 kategoriálních proměnných - kontingenční tabulky Hodnoty proměnné Y X/Y Y1 Y2 Yj Ys ni. Hodnoty proměnné X X1 n11 n12 n1j n1s n1. X2 n21 n22 n2j n2s n2. Xi n31 n32 n3j n3s n3. Xr nr1 nr2 nrj nrs nr. n.j n.1 n.2 n.j n.s n okrajové četnosti vyjadřují četnosti jednotlivých hodnot proměnných X a Y sdružené četnosti vyjadřují četnosti kombinací jednotlivých hodnot proměnných X a Y 1
Co testujeme? Test test k ověření nezávislosti v kontingenční tabulce je speciální případ chí-kvadrát testu dobré shody a porovnává výběrové (pozorované) četnosti s teoretickými četnostmi, které bychom očekávali v případě nezávislosti sledovaných proměnných kontingenční (kombinační) tabulka vzniká tříděním jednotek souboru podle variant dvou kategoriálních znaků nulová hypotéza říká, že sledované proměnné jsou nezávislé, alternativní hypotéza nulovou popírá a říká, že sledované proměnné jsou závislé : =.. : 1 1 testovým kritériem je veličina G, která má v případě nezávislosti a při dostatečně velkém počtu pozorování přibližně chí-kvadrát rozdělení s ν = (r-1)(s-1) stupni volnosti, kde r je počet variant prvního znaku (počet řádků) a s je počet variant druhého znaku (počet sloupců) =, kde =.. tabulka obsahovala v případě nezávislosti sledovaných znaků Testové kritérium má při platnosti nulové hypotézy rozdělení Kritický obor jsou teoretické četnosti, které by kontingenční 1 1 =< 1 1; pro posouzení intenzity závislosti proměnných v kontingenční tabulce se používají různé charakteristiky, nejpoužívanější jsou Pearsonův koeficient kontingence a Cramérův koeficient kontingence, které jsou založené na hodnotě testového kritéria chí-kvadrát =/+ = Pearsonův koeficient kontingence =/ 1 = Cramérův koeficient kontingence, kde =; Asociační tabulka kontingenční tabulce o rozměru 2 řádky x 2 sloupce se říká asociační tabulka v případě asociační tabulky lze hodnotu testového kritéria vypočítat pomocí vzorce =, kritický obor má pak tvar... = 1;. těsnost závislosti v asociační tabulce lze měřit pomocí tzv. koeficientu asociace = 11 22 12 21 1. 2..1.2, který nabývá hodnot <-1;1> 2
Př. 8.1 U 93 pacientů trpících chorobou bylo zjišťováno, zda byli očkováni a jaký průběh choroba má. Závisí průběh choroby na tom, zda pacient byl očkován? Uvažujte α = 0,05. Vypočtěte ručně. Průběh choroby Lehký Těžký Pacient očkován ANO 33 9 NE 15 36 Př. 8.2 Byla zjišťována souvislost mezi hladinou alkoholu v krvi (nízká, střední, vysoká) a rychlostí reakce (dobrá, špatná) u 100 náhodně vybraných lidí. Existuje souvislost? Pokud ano, jaká je intenzita závislosti? Testuje na hladině významnosti α = 0,05. Vypočtěte v MS Excel pomocí funkce CHITEST, pokud znáte teoretické četnosti. Rychlost reakce Hladina alkoholu Dobrá Špatná Celkem Nízká Střední Vysoká Empirické 53 12 Teoretické 39 26 Empirické 5 15 Teoretické 12 8 Empirické 2 13 Teoretické 9 6 65 20 15 Celkem 60 40 100 3
Závislost číselné proměnné na kategoriální - Analýza rozptylu (ANOVA) Co testujeme? ověření existence vlivu kategoriálního faktoru (nezávisle proměnné) na hodnoty číselného znaku (závisle proměnné) tj. ověření závislosti jedné číselné proměnné na jedné kategoriální proměnné (faktoru) faktor nabývá malého počtu (k) obměn a hodnoty závisle proměnné můžeme roztřídit do k skupin podle tohoto faktoru Př. Máme k dispozici údaje z filmové databáze www.csfd.cz o průměrném hodnocení kvality 15 filmů uživateli webu. Filmy mají na škále 0-100 hodnocení 87, 87, 84, 81, 62, 64, 70, 74, 67, 58, 79, 83, 91, 84 a 88. Filmy je možné roztřídit dle žánru do 3 skupin akční, komedie a drama. Zajímá nás, zda faktor žánr má vliv na to, jak jsou filmy hodnoceny. ověření závislosti spočívá v porovnání výběrových průměrů uvnitř jednotlivých skupin (tj. jde o určité rozšíření testu o shodě středních hodnot) rozdílnost mezi skupinovými průměry (charakterizovaná pomocí meziskupinové variability) je srovnávána s kolísáním hodnot uvnitř skupin (charakterizovaným vnitroskupinovou variabilitou) ŽÁNR HODNOCENÍ PRŮMĚRNÉ HODNOCENÍ Komedie 87 87 84 74 81 82,6 Akční 62 64 70 58 67 64,2 Drama 83 91 84 79 88 85,0 PRŮMĚRNÉ HODNOCENÍ ZA VŠECHNY FILMY = 77,3 meziskupinová variabilita vyjádřena jako meziskupinový součet čtverců (součet druhých mocnin odchylek skupinových průměrů od celkového průměru sledované závislé veličiny) vyjadřuje, jak moc se od sebe liší jednotlivé skupiny. = vnitroskupinová variabilita vyjádřena jako vnitroskupinový součet čtverců (součet druhých mocnin odchylek jednotlivých hodnot uvnitř skupin od příslušných skupinových průměrů) vyjadřuje, jak moc se liší hodnoty uvnitř skupin. = celková variabilita závisle proměnné vyjádřena jako celkový součet čtverců vyjadřuje, jak moc různé jsou hodnoty závisle proměnné a platí, =. +. = 4
Test nulová hypotéza o nezávislosti formulována jako hypotéza o rovnosti středních hodnot : μ =μ = =μ : => nezávislost závisle proměnné na faktoru => závislost závisle proměnné faktoru testové kritérium F vychází z toho, že čím větší podíl na celkové variabilitě má variabilita meziskupinová oproti vnitroskupinové, tím spíše má sledovaný faktor vliv na rozdílnost hodnot závisle proměnné =./ 1. / Při platnosti nulové hypotézy má testové kritérium rozdělení 1,, kde k je počet variant faktoru a n je počet pozorování. Kritický obor = 1, ; míru těsnosti závislosti závisle proměnné na třídícím faktoru lze měřit pomocí tzv. poměru determinace, který je konstruován jak podíl meziskupinové variability na celkové variabilitě závisle proměnné nabývá hodnot o 0 do 1, přičemž závislost je tím těsnější, čím je hodnota poměru determinace blíže 1 =. statistický software často dává výstup analýzy rozptylu v následujícím formátu: Zdroj Součet čtverců Stupně volnosti Průměrný Hodnota F Hodnota P variability (SS) (Rozdíl) čtverec (MS) (F) Faktor (Mezi výběry). 1. / 1. / 1. / Reziduální (Všechny výběry).. / Celkem 1 ANALÝZA ROZPTYLU V MS EXCEL o o V modulu ANALÝZA DAT nabídka Anova: jeden faktor Jsou-li data ve formátu, kdy proměnné jsou v řádcích a pozorování ve sloupcích, pak volbu Sdružit nastavit na Řádky o Jsou-li data ve formátu, kdy proměnné jsou ve sloupcích a pozorování v řádcích, pak volbu Sdružit nastavit na Sloupce 5
Př. 8.3 U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Využijte výstup z MS Excel. Zkuste v modulu Analýza dat výstup vytvořit (sdružit sloupce). Zadání Cvičící Kuba Kubina Kubinčák Body u závěrečného testu 53 42 39 47 48 46 55 48 39 50 50 43 Výstup z MS Excel ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 2 181,17 90,58 7,58 0,0117 4,256 Všechny výběry 9 107,5 11,94 Celkem 11 288,67 Př. 8.4 Pomocí experimentu byla testována spotřeba při použití 3 druhů benzinu, s každým druhem bylo provedeno 5 pokusů. Doplňte tabulku ANOVA a rozhodněte na hladině významnosti 0,05, zda spotřeba závisí na druhu benzinu. Změřte těsnost závislosti. Zdroj variability SS Rozdíl MS F Mezi výběry Všechny výběry 0,080280 Celkem 0,250773 Př. 8.5. Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině významnosti a posuďte těsnost testované závislosti. Vypočtěte v MS Excel pomocí modulu Analýza dat (sdružit řádky). ŽÁNR HODNOCENÍ Komedie 87 87 84 74 81 Akční 62 64 70 58 67 Drama 83 91 84 79 88 6