Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

HTML
DOWNLOAD

Rozměr: px

Začít zobrazení ze stránky:

Download "Statistické metody v ekonomii. Ing. Michael Rost, Ph.D."

Rudolf Musil
před 9 lety
Počet zobrazení:

1 Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích

2 Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku. Celkem n 11 n 12 n 1 n 21 n 22 n 2 Celkem n 1 n 2 n Je-li tedy c = r = 2, pak je testovou statistikou veličina χ 2, přičemž pro ni platí: χ 2 = n (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2. Testová statistika se řídí za platnosti nulové hypotézy χ 2 rozdělením s (r 1)(c 1) = 1 stupněm volnosti.

Celkem n 11 n 12 n 1 n 21 n 22 n 2 Celkem n 1 n 2 n Je-li tedy c = r = 2, pak je testovou

3 Test χ 2 v kontingenční tabulce typu 2 2 Pro úplnost malou poznámku: Je třeba mít na paměti, že se tento test pro čtyřpolní (tetrachorickou) kontingenční tabulku můžeme využívat jen pro dostatečně velké rozsahy výběru n. Pro n < 20 jsou výsledky tohoto testu velmi nepřesné a nelze jej použít. Pro rozsahy 20 < n < 40 jej lze použít pouze v případě, že žádná teoretická četnost není menší než 5.

velké rozsahy výběru n. Pro n < 20 jsou výsledky tohoto testu velmi nepřesné a nelze jej použít.

4 Příklad Byl proveden průzkum v souvislosti s koupí zájezdu do Řecka, který pravidelně organizuje jistá cestovní kancelář se sídlem v Praze. Výsledky průzkumu jsou uspořádány v kontingenční tabulce. Předchozí Rok 2006 dovolená v Řecku dovolená v Řecku Ano Ne Celkem Ano Ne Celkem

Výsledky průzkumu jsou uspořádány v kontingenční tabulce.

5 Řešení v R Numerické vyhodnocení provedeme opět prostřednictvím Erka. V průběhu výpočtu nebude využita Yatesova korekce na spojitost. data<-matrix(c(187,179,150,502),2,2) chisq.test(data,correct=false) data: Pearson s Chi-squared test data X-squared = , df = 1, p-value < 2.2e-16 Je zřejmé, že můžeme zamítnout hypotézu o nezávislosti. Jinak řečeno můžeme zamítnout hypotézu, která tvrdí, že zákazník není ve svých plánech o dovolené v Řecku ovlivněn předchozí přítomností/nepřítomností v této zemi.

test(data,correct=false) data: Pearson s Chi-squared test data X-squared = 83.5031, df = 1, p-value < 2.

6 Yatesova korekce V souvislosti s tímto testem se můžeme setkat s tzv. Yatesovo korekcí. Hodnotu korigované testové statistiky určíme prostřednictvím vzorce χ 2 = n ( n 11n 22 n 12 n 21 n/2) 2 n 1 n 2 n 1 n 2. Yatesova korekce činí test konzervativnějším, tj. snižuje hodnotu testové statistiky a je tak obtížnější zamítnout testovanou hypotézu. Na druhé straně však vzrůstá pravděpodobnost toho, že se dopustíme chyby druhého druhu, za jinak stejných podmínek.

1 n 2. Yatesova korekce činí test konzervativnějším, tj.

7 Míra těsnosti asociační závislosti - koeficient asociace χ 2 -test umožňuje posoudit, zda mezi sledovanými znaky existuje závislost. Nevypovídá však o těsnosti sledované závislosti. V případě kontingenční tabulky typu 2 2 se dosti často používá jednoduchá míra těsnosti závislosti - koeficient asociace: V = n 11 n 22 n 12 n 21 n1 n 2 n 1 n 2 Tento koeficient nabývá hodnot z intervalu 1; 1. Hodnoty 1 v případě úplné pozitivní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy ++ a ). Hodnoty -1 pak v případě úplné negativní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy + a +). Existují i jiné míry asociační závislosti, např. Pearsonův koeficient kontingence C P.

nabývá hodnot z intervalu 1; 1. Hodnoty 1 v případě úplné pozitivní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy ++ a ).

8 McNemarův test McNemarův test je testem symetrie pro čtyřpolní kontingenční tabulku. S jeho pomocí je možné řešit situaci, ve které máme n náhodně vybraných objektů, u kterých je známá přítomnost či nepřítomnost sledovaného znaku. Všech těchto n objektů je následně vystaveno určitému zásahu, např. podání léku, proběhnutí reklamní či volební kampaně. Po zásahu je opět u všech n objektů zjišt ována přítomnost či nepřítomnost sledovaného znaku. McNemarův test pomáhá v takové situaci prokázat, zda se po zásahu změnila pravděpodobnost výskytu znaku u sledovaných objektů.

znaku. Všech těchto n objektů je následně vystaveno určitému zásahu, např. podání léku, proběhnutí reklamní či volební kampaně.

9 Uvažujme tedy následující kontingenční tabulku: Před Po zásahu zásahem Přítomnost Nepřítomnost Celkem Přítomnost n 11 n 12 n 1 Nepřítomnost n 21 n 22 n 2 Celkem n 1 n 2 n Testujeme tedy H 0 : p 1 = p 1, což je ekvivalentní hypotéze H 0 : p 12 = p 21. Testovou veličinou je veličina χ 2 definovaná takto: χ 2 = (n 12 n 21 ) 2 n 12 + n 21 Veličina χ 2 má asymptoticky χ 2 rozdělení s jedním stupněm volnosti. Testovanou hypotézu o symetrii zamítáme, pokud testová statistika χ 2 překročí 1 α procentní kvantil χ 2 rozdělení s jedním stupněm volnosti.

Testovou veličinou je veličina χ 2 definovaná takto: χ 2 = (n 12 n 21 ) 2 n 12 + n 21 Veličina χ 2 má asymptoticky χ 2 rozdělení s

10 Příklad Byl proveden marketingový výzkum, v němž byla sledována změna postojů 200 spotřebitelů před kampaní a po dvouměsíční reklamní kampani na produkt nejmenované firmy. Pozorované údaje jsou uvedeny ve čtyřpolní tabulce: Před Po kampani kampaní Ano Ne Ano Ne Došlo ke změně postojů sledovaných lidí? Otestujme, zda lze předpokládat významnou změnu ve struktuře četností. Provedeme to prostřednictvím McNemarova testu.

Pozorované údaje jsou uvedeny ve čtyřpolní tabulce: Před Po kampani kampaní Ano Ne Ano 85 35 120 Ne 50 30 80 135

11 Řešení v R data<-matrix(c(85,50,35,30),2,2) rownames(data)<-c("koupili","nekoupili") colnames(data)<-c("koupi","nekoupi") mcnemar.test(data,correct=f) McNemar s Chi-squared test data: data McNemar s chi-squared = , df = 1, p-value = Je zřejmé, že nedošlo ke statisticky významné změně v postojích. V případě malého počtu pozorování můžeme zavést korekci. Testové kritérium má pak následující tvar: χ 2 = ( n 12 n 21 1) 2 n 12 + n 21. Postup by byl obdobný: mcnemar.test(data)

1037 Je zřejmé, že nedošlo ke statisticky významné změně v postojích.

12 Testy hypotéz o parametru π rozdělení A(π) V případě, že testujeme hypotézu o shodě relativních četností, tj. H 0 : π = π 0, můžeme v případě velkého výběru využít testového kritéria: U = ˆπ π 0 π 0 (1 π 0 ) n, kde ˆπ představuje výběrový podíl, tzn. ˆπ = m/n. Symbol m označuje počet pokusů ve kterých nastal námi sledovaný jev. Symbol n pak celkový počet pokusů. Uvědomte si, že výsledek takového testu závisí jak na hodnotě ˆπ, tak i na velikosti souboru, ze kterého počítáme onu relativní četnost ˆπ.

výběrový podíl, tzn. ˆπ = m/n. Symbol m označuje počet pokusů ve kterých nastal námi sledovaný jev.

13 Kritické obory Kritické obory pro jednotlivé alternativní hypotézy lze v případě dostatečného počtu pozorování definovat takto: H 0 H A K ˆπ < π 0 {u; u u α } ˆπ = π 0 ˆπ > π 0 {u; u u 1 α } ˆπ π 0 {u; u u 1 α/2 } Zde symbol u α představuje α-procentní kvantil normálního normovaného rozdělení. Tuto hodnotu lze zjistit v R prostřednictvím příkazu qnorm(α)

ˆπ > π 0 {u; u u 1 α } ˆπ π 0 {u; u u 1 α/2 } Zde symbol u α představuje α-procentní

14 Příklad Při výrobě určitého výrobku je povolen podíl vadných výrobků nejvýše 0,04. Bylo odebráno 250 vzorků, z nichž se ukázalo, že je 21 vadných. Probíhá výroba výrobků korektně - ve stanovených mezích, či je výrobní proces nastaven špatně? Volte α = 0, 05 Zformulujme potřebné hypotézy: Dosadíme-li do vzorce získáme: atd... U = H 0 : π π 0 H A : π > π 0 0, 084 0, 04 0, 04 (0, 96) 250 = 3, 55023

Probíhá výroba výrobků korektně - ve stanovených mezích, či je výrobní proces nastaven špatně?

15 Jak nato v R prop.test(21,250,p=.04,alternative="g",correct=false) 1-sample proportions test without continuity correction data: 21 out of 250, null probability 0.04 X-squared = , df = 1, p-value = alternative hypothesis: true p is greater than percent confidence interval: sample estimates: p Z výsledku je zřejmé, že hodnota p-value = 1, Lze tedy říci, že na základě předložených údajů a na hladině významnosti α = 0, 05, můžeme zamítnout nulovou hypotézu, ve prospěch alternativní hypotézy. Výrobní proces je tedy špatně nastaven.

6042, df = 1, p-value = 0.0001924 alternative hypothesis: true p is greater than 0.04 95 percent confidence interval: 0.05940864 1.

16 Testy hypotéz typu π 1 = π 2 ve velkých výběrech, kde X i A(π i ), i = 1, 2. V případě, že testujeme hypotézu o shodě dvou relativních četností, přičemž předpokládáme nezávislost výběrů, tj testujeme-li: H 0 : π 1 = π 2, můžeme, v případě velkého výběru využít testového kritéria: U = ˆπ 1 ˆπ 2 π(1 π) ( n1 n 2 n 1 + n 2 kde ˆπ i představuje i-tou relativní četnost a průměrnou relativní četnost π stanovíme jako: π = m 1 + m 2 n 1 + n 2 = n 1ˆπ 1 + n 2ˆπ 2 n 1 + n 2. V případě dostatečného počtu pozorování v obou skupinách lze říci, že U N(0; 1). ),

= π 2, můžeme, v případě velkého výběru využít testového kritéria: U = ˆπ 1 ˆπ 2 π(1 π) ( n1 n 2 n 1 + n 2 kde ˆπ i představuje i-tou

17 Kritické hodnoty a příklad Kritické obory pro jednotlivé alternativní hypotézy lze v případě dostatečného počtu pozorování definovat následovně: H 0 H A K ˆπ 1 < π 2 {u; u u α } ˆπ 1 = π 2 ˆπ 1 > π 2 {u; u u 1 α } ˆπ 1 π 2 {u; u u 1 α/2 } Ve dvou závodech A a B se vyrábí určitý výrobek stejnou technologíı. Podíl vadných výrobků by měl být stejný. Z 200 výrobků závodu A bylo 10 vadných. Z 250 výrobků závodu B byl vadných 23. Je podíl vadných výrobků v závodě A nižší než v závodě B? Volte α = 0, 05.

závodech A a B se vyrábí určitý výrobek stejnou technologíı. Podíl vadných výrobků by měl být stejný.

18 Řešení v R Hypotézu tedy specifikujeme jako H 0 : π 1 π 2 versus H A : π 1 < π 2 prop.test(c(10,23),c(200,250),correct=false,alternative="l") 2-sample test for equality of proportions without continuity correction data: c(10, 23) out of c(200, 250) X-squared = , df = 1, p-value = alternative hypothesis: less 95 percent confidence interval: sample estimates: prop 1 prop Vzhledem k dosažené hladině významnosti (p-value = 0,04473) lze říci, že závod B má statisticky významně vyšší podíl vadných výrobků než závod A.

23) out of c(200, 250) X-squared = 2.8842, df = 1, p-value = 0.04473 alternative hypothesis: less 95 percent confidence interval: -1.

Podobné dokumenty

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v. Opakování Opakování: y o střední hodnotě normálního 1 jednovýběrový t-test 2 párový t-test 3 výběrový t-test Šárka Hudecová Katedra a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy