Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích
Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku. Celkem n 11 n 12 n 1 n 21 n 22 n 2 Celkem n 1 n 2 n Je-li tedy c = r = 2, pak je testovou statistikou veličina χ 2, přičemž pro ni platí: χ 2 = n (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2. Testová statistika se řídí za platnosti nulové hypotézy χ 2 rozdělením s (r 1)(c 1) = 1 stupněm volnosti.
Test χ 2 v kontingenční tabulce typu 2 2 Pro úplnost malou poznámku: Je třeba mít na paměti, že se tento test pro čtyřpolní (tetrachorickou) kontingenční tabulku můžeme využívat jen pro dostatečně velké rozsahy výběru n. Pro n < 20 jsou výsledky tohoto testu velmi nepřesné a nelze jej použít. Pro rozsahy 20 < n < 40 jej lze použít pouze v případě, že žádná teoretická četnost není menší než 5.
Příklad Byl proveden průzkum v souvislosti s koupí zájezdu do Řecka, který pravidelně organizuje jistá cestovní kancelář se sídlem v Praze. Výsledky průzkumu jsou uspořádány v kontingenční tabulce. Předchozí Rok 2006 dovolená v Řecku dovolená v Řecku Ano Ne Celkem Ano 187 150 337 Ne 179 502 681 Celkem 366 652 1018
Řešení v R Numerické vyhodnocení provedeme opět prostřednictvím Erka. V průběhu výpočtu nebude využita Yatesova korekce na spojitost. data<-matrix(c(187,179,150,502),2,2) chisq.test(data,correct=false) data: Pearson s Chi-squared test data X-squared = 83.5031, df = 1, p-value < 2.2e-16 Je zřejmé, že můžeme zamítnout hypotézu o nezávislosti. Jinak řečeno můžeme zamítnout hypotézu, která tvrdí, že zákazník není ve svých plánech o dovolené v Řecku ovlivněn předchozí přítomností/nepřítomností v této zemi.
Yatesova korekce V souvislosti s tímto testem se můžeme setkat s tzv. Yatesovo korekcí. Hodnotu korigované testové statistiky určíme prostřednictvím vzorce χ 2 = n ( n 11n 22 n 12 n 21 n/2) 2 n 1 n 2 n 1 n 2. Yatesova korekce činí test konzervativnějším, tj. snižuje hodnotu testové statistiky a je tak obtížnější zamítnout testovanou hypotézu. Na druhé straně však vzrůstá pravděpodobnost toho, že se dopustíme chyby druhého druhu, za jinak stejných podmínek.
Míra těsnosti asociační závislosti - koeficient asociace χ 2 -test umožňuje posoudit, zda mezi sledovanými znaky existuje závislost. Nevypovídá však o těsnosti sledované závislosti. V případě kontingenční tabulky typu 2 2 se dosti často používá jednoduchá míra těsnosti závislosti - koeficient asociace: V = n 11 n 22 n 12 n 21 n1 n 2 n 1 n 2 Tento koeficient nabývá hodnot z intervalu 1; 1. Hodnoty 1 v případě úplné pozitivní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy ++ a ). Hodnoty -1 pak v případě úplné negativní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy + a +). Existují i jiné míry asociační závislosti, např. Pearsonův koeficient kontingence C P.
McNemarův test McNemarův test je testem symetrie pro čtyřpolní kontingenční tabulku. S jeho pomocí je možné řešit situaci, ve které máme n náhodně vybraných objektů, u kterých je známá přítomnost či nepřítomnost sledovaného znaku. Všech těchto n objektů je následně vystaveno určitému zásahu, např. podání léku, proběhnutí reklamní či volební kampaně. Po zásahu je opět u všech n objektů zjišt ována přítomnost či nepřítomnost sledovaného znaku. McNemarův test pomáhá v takové situaci prokázat, zda se po zásahu změnila pravděpodobnost výskytu znaku u sledovaných objektů.
Uvažujme tedy následující kontingenční tabulku: Před Po zásahu zásahem Přítomnost Nepřítomnost Celkem Přítomnost n 11 n 12 n 1 Nepřítomnost n 21 n 22 n 2 Celkem n 1 n 2 n Testujeme tedy H 0 : p 1 = p 1, což je ekvivalentní hypotéze H 0 : p 12 = p 21. Testovou veličinou je veličina χ 2 definovaná takto: χ 2 = (n 12 n 21 ) 2 n 12 + n 21 Veličina χ 2 má asymptoticky χ 2 rozdělení s jedním stupněm volnosti. Testovanou hypotézu o symetrii zamítáme, pokud testová statistika χ 2 překročí 1 α procentní kvantil χ 2 rozdělení s jedním stupněm volnosti.
Příklad Byl proveden marketingový výzkum, v němž byla sledována změna postojů 200 spotřebitelů před kampaní a po dvouměsíční reklamní kampani na produkt nejmenované firmy. Pozorované údaje jsou uvedeny ve čtyřpolní tabulce: Před Po kampani kampaní Ano Ne Ano 85 35 120 Ne 50 30 80 135 65 200 Došlo ke změně postojů sledovaných lidí? Otestujme, zda lze předpokládat významnou změnu ve struktuře četností. Provedeme to prostřednictvím McNemarova testu.
Řešení v R data<-matrix(c(85,50,35,30),2,2) rownames(data)<-c("koupili","nekoupili") colnames(data)<-c("koupi","nekoupi") mcnemar.test(data,correct=f) McNemar s Chi-squared test data: data McNemar s chi-squared = 2.6471, df = 1, p-value = 0.1037 Je zřejmé, že nedošlo ke statisticky významné změně v postojích. V případě malého počtu pozorování můžeme zavést korekci. Testové kritérium má pak následující tvar: χ 2 = ( n 12 n 21 1) 2 n 12 + n 21. Postup by byl obdobný: mcnemar.test(data)
Testy hypotéz o parametru π rozdělení A(π) V případě, že testujeme hypotézu o shodě relativních četností, tj. H 0 : π = π 0, můžeme v případě velkého výběru využít testového kritéria: U = ˆπ π 0 π 0 (1 π 0 ) n, kde ˆπ představuje výběrový podíl, tzn. ˆπ = m/n. Symbol m označuje počet pokusů ve kterých nastal námi sledovaný jev. Symbol n pak celkový počet pokusů. Uvědomte si, že výsledek takového testu závisí jak na hodnotě ˆπ, tak i na velikosti souboru, ze kterého počítáme onu relativní četnost ˆπ.
Kritické obory Kritické obory pro jednotlivé alternativní hypotézy lze v případě dostatečného počtu pozorování definovat takto: H 0 H A K ˆπ < π 0 {u; u u α } ˆπ = π 0 ˆπ > π 0 {u; u u 1 α } ˆπ π 0 {u; u u 1 α/2 } Zde symbol u α představuje α-procentní kvantil normálního normovaného rozdělení. Tuto hodnotu lze zjistit v R prostřednictvím příkazu qnorm(α)
Příklad Při výrobě určitého výrobku je povolen podíl vadných výrobků nejvýše 0,04. Bylo odebráno 250 vzorků, z nichž se ukázalo, že je 21 vadných. Probíhá výroba výrobků korektně - ve stanovených mezích, či je výrobní proces nastaven špatně? Volte α = 0, 05 Zformulujme potřebné hypotézy: Dosadíme-li do vzorce získáme: atd... U = H 0 : π π 0 H A : π > π 0 0, 084 0, 04 0, 04 (0, 96) 250 = 3, 55023
Jak nato v R prop.test(21,250,p=.04,alternative="g",correct=false) 1-sample proportions test without continuity correction data: 21 out of 250, null probability 0.04 X-squared = 12.6042, df = 1, p-value = 0.0001924 alternative hypothesis: true p is greater than 0.04 95 percent confidence interval: 0.05940864 1.00000000 sample estimates: p 0.084 Z výsledku je zřejmé, že hodnota p-value = 1, 924 10 4. Lze tedy říci, že na základě předložených údajů a na hladině významnosti α = 0, 05, můžeme zamítnout nulovou hypotézu, ve prospěch alternativní hypotézy. Výrobní proces je tedy špatně nastaven.
Testy hypotéz typu π 1 = π 2 ve velkých výběrech, kde X i A(π i ), i = 1, 2. V případě, že testujeme hypotézu o shodě dvou relativních četností, přičemž předpokládáme nezávislost výběrů, tj testujeme-li: H 0 : π 1 = π 2, můžeme, v případě velkého výběru využít testového kritéria: U = ˆπ 1 ˆπ 2 π(1 π) ( n1 n 2 n 1 + n 2 kde ˆπ i představuje i-tou relativní četnost a průměrnou relativní četnost π stanovíme jako: π = m 1 + m 2 n 1 + n 2 = n 1ˆπ 1 + n 2ˆπ 2 n 1 + n 2. V případě dostatečného počtu pozorování v obou skupinách lze říci, že U N(0; 1). ),
Kritické hodnoty a příklad Kritické obory pro jednotlivé alternativní hypotézy lze v případě dostatečného počtu pozorování definovat následovně: H 0 H A K ˆπ 1 < π 2 {u; u u α } ˆπ 1 = π 2 ˆπ 1 > π 2 {u; u u 1 α } ˆπ 1 π 2 {u; u u 1 α/2 } Ve dvou závodech A a B se vyrábí určitý výrobek stejnou technologíı. Podíl vadných výrobků by měl být stejný. Z 200 výrobků závodu A bylo 10 vadných. Z 250 výrobků závodu B byl vadných 23. Je podíl vadných výrobků v závodě A nižší než v závodě B? Volte α = 0, 05.
Řešení v R Hypotézu tedy specifikujeme jako H 0 : π 1 π 2 versus H A : π 1 < π 2 prop.test(c(10,23),c(200,250),correct=false,alternative="l") 2-sample test for equality of proportions without continuity correction data: c(10, 23) out of c(200, 250) X-squared = 2.8842, df = 1, p-value = 0.04473 alternative hypothesis: less 95 percent confidence interval: -1.000000000-0.002673067 sample estimates: prop 1 prop 2 0.050 0.092 Vzhledem k dosažené hladině významnosti (p-value = 0,04473) lze říci, že závod B má statisticky významně vyšší podíl vadných výrobků než závod A.