Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.



Podobné dokumenty
Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Testování statistických hypotéz

Testy nezávislosti kardinálních veličin

Jana Vránová, 3. lékařská fakulta UK

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Přednáška X. Testování hypotéz o kvantitativních proměnných

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

4ST201 STATISTIKA CVIČENÍ Č. 7

Fisherův exaktní test

PRAVDĚPODOBNOST A STATISTIKA

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

You created this PDF from an application that is not licensed to print to novapdf printer (

= = 2368

Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testy. Pavel Provinský. 19. listopadu 2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Kontingenční tabulky, korelační koeficienty

Analýza dat z dotazníkových šetření

12. cvičení z PST. 20. prosince 2017

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Statistické metody uţívané při ověřování platnosti hypotéz

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Tomáš Karel LS 2012/2013

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování uživatelského rozhraní

KGG/STG Statistika pro geografy

McNemarův test, Stuartův test, Test symetrie

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

KGG/STG Statistika pro geografy

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Jednostranné intervaly spolehlivosti

Jednofaktorová analýza rozptylu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Opakování: Nominální proměnná více hodnotová odpověď.

Kontingenční tabulky, korelační koeficienty

5 Parametrické testy hypotéz

Testování statistických hypotéz

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Cvičení ze statistiky - 8. Filip Děchtěrenko

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

ADDS cviceni. Pavlina Kuranova

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Plánovací diář a Google Calendar

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Testování statistických hypotéz

Příklady na testy hypotéz o parametrech normálního rozdělení

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Charakteristika datového souboru

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

2 ) 4, Φ 1 (1 0,005)

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Ilustrační příklad odhadu LRM v SW Gretl

Testy statistických hypotéz

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Regresní a korelační analýza

Úvod do analýzy rozptylu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Poznámky k předmětu Aplikovaná statistika, 11. téma

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Neparametrické metody

15. T e s t o v á n í h y p o t é z

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Transkript:

Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích

Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku. Celkem n 11 n 12 n 1 n 21 n 22 n 2 Celkem n 1 n 2 n Je-li tedy c = r = 2, pak je testovou statistikou veličina χ 2, přičemž pro ni platí: χ 2 = n (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2. Testová statistika se řídí za platnosti nulové hypotézy χ 2 rozdělením s (r 1)(c 1) = 1 stupněm volnosti.

Test χ 2 v kontingenční tabulce typu 2 2 Pro úplnost malou poznámku: Je třeba mít na paměti, že se tento test pro čtyřpolní (tetrachorickou) kontingenční tabulku můžeme využívat jen pro dostatečně velké rozsahy výběru n. Pro n < 20 jsou výsledky tohoto testu velmi nepřesné a nelze jej použít. Pro rozsahy 20 < n < 40 jej lze použít pouze v případě, že žádná teoretická četnost není menší než 5.

Příklad Byl proveden průzkum v souvislosti s koupí zájezdu do Řecka, který pravidelně organizuje jistá cestovní kancelář se sídlem v Praze. Výsledky průzkumu jsou uspořádány v kontingenční tabulce. Předchozí Rok 2006 dovolená v Řecku dovolená v Řecku Ano Ne Celkem Ano 187 150 337 Ne 179 502 681 Celkem 366 652 1018

Řešení v R Numerické vyhodnocení provedeme opět prostřednictvím Erka. V průběhu výpočtu nebude využita Yatesova korekce na spojitost. data<-matrix(c(187,179,150,502),2,2) chisq.test(data,correct=false) data: Pearson s Chi-squared test data X-squared = 83.5031, df = 1, p-value < 2.2e-16 Je zřejmé, že můžeme zamítnout hypotézu o nezávislosti. Jinak řečeno můžeme zamítnout hypotézu, která tvrdí, že zákazník není ve svých plánech o dovolené v Řecku ovlivněn předchozí přítomností/nepřítomností v této zemi.

Yatesova korekce V souvislosti s tímto testem se můžeme setkat s tzv. Yatesovo korekcí. Hodnotu korigované testové statistiky určíme prostřednictvím vzorce χ 2 = n ( n 11n 22 n 12 n 21 n/2) 2 n 1 n 2 n 1 n 2. Yatesova korekce činí test konzervativnějším, tj. snižuje hodnotu testové statistiky a je tak obtížnější zamítnout testovanou hypotézu. Na druhé straně však vzrůstá pravděpodobnost toho, že se dopustíme chyby druhého druhu, za jinak stejných podmínek.

Míra těsnosti asociační závislosti - koeficient asociace χ 2 -test umožňuje posoudit, zda mezi sledovanými znaky existuje závislost. Nevypovídá však o těsnosti sledované závislosti. V případě kontingenční tabulky typu 2 2 se dosti často používá jednoduchá míra těsnosti závislosti - koeficient asociace: V = n 11 n 22 n 12 n 21 n1 n 2 n 1 n 2 Tento koeficient nabývá hodnot z intervalu 1; 1. Hodnoty 1 v případě úplné pozitivní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy ++ a ). Hodnoty -1 pak v případě úplné negativní závislosti (asociaci) alternativních znaků X a Y (vyskytují se jen případy + a +). Existují i jiné míry asociační závislosti, např. Pearsonův koeficient kontingence C P.

McNemarův test McNemarův test je testem symetrie pro čtyřpolní kontingenční tabulku. S jeho pomocí je možné řešit situaci, ve které máme n náhodně vybraných objektů, u kterých je známá přítomnost či nepřítomnost sledovaného znaku. Všech těchto n objektů je následně vystaveno určitému zásahu, např. podání léku, proběhnutí reklamní či volební kampaně. Po zásahu je opět u všech n objektů zjišt ována přítomnost či nepřítomnost sledovaného znaku. McNemarův test pomáhá v takové situaci prokázat, zda se po zásahu změnila pravděpodobnost výskytu znaku u sledovaných objektů.

Uvažujme tedy následující kontingenční tabulku: Před Po zásahu zásahem Přítomnost Nepřítomnost Celkem Přítomnost n 11 n 12 n 1 Nepřítomnost n 21 n 22 n 2 Celkem n 1 n 2 n Testujeme tedy H 0 : p 1 = p 1, což je ekvivalentní hypotéze H 0 : p 12 = p 21. Testovou veličinou je veličina χ 2 definovaná takto: χ 2 = (n 12 n 21 ) 2 n 12 + n 21 Veličina χ 2 má asymptoticky χ 2 rozdělení s jedním stupněm volnosti. Testovanou hypotézu o symetrii zamítáme, pokud testová statistika χ 2 překročí 1 α procentní kvantil χ 2 rozdělení s jedním stupněm volnosti.

Příklad Byl proveden marketingový výzkum, v němž byla sledována změna postojů 200 spotřebitelů před kampaní a po dvouměsíční reklamní kampani na produkt nejmenované firmy. Pozorované údaje jsou uvedeny ve čtyřpolní tabulce: Před Po kampani kampaní Ano Ne Ano 85 35 120 Ne 50 30 80 135 65 200 Došlo ke změně postojů sledovaných lidí? Otestujme, zda lze předpokládat významnou změnu ve struktuře četností. Provedeme to prostřednictvím McNemarova testu.

Řešení v R data<-matrix(c(85,50,35,30),2,2) rownames(data)<-c("koupili","nekoupili") colnames(data)<-c("koupi","nekoupi") mcnemar.test(data,correct=f) McNemar s Chi-squared test data: data McNemar s chi-squared = 2.6471, df = 1, p-value = 0.1037 Je zřejmé, že nedošlo ke statisticky významné změně v postojích. V případě malého počtu pozorování můžeme zavést korekci. Testové kritérium má pak následující tvar: χ 2 = ( n 12 n 21 1) 2 n 12 + n 21. Postup by byl obdobný: mcnemar.test(data)

Testy hypotéz o parametru π rozdělení A(π) V případě, že testujeme hypotézu o shodě relativních četností, tj. H 0 : π = π 0, můžeme v případě velkého výběru využít testového kritéria: U = ˆπ π 0 π 0 (1 π 0 ) n, kde ˆπ představuje výběrový podíl, tzn. ˆπ = m/n. Symbol m označuje počet pokusů ve kterých nastal námi sledovaný jev. Symbol n pak celkový počet pokusů. Uvědomte si, že výsledek takového testu závisí jak na hodnotě ˆπ, tak i na velikosti souboru, ze kterého počítáme onu relativní četnost ˆπ.

Kritické obory Kritické obory pro jednotlivé alternativní hypotézy lze v případě dostatečného počtu pozorování definovat takto: H 0 H A K ˆπ < π 0 {u; u u α } ˆπ = π 0 ˆπ > π 0 {u; u u 1 α } ˆπ π 0 {u; u u 1 α/2 } Zde symbol u α představuje α-procentní kvantil normálního normovaného rozdělení. Tuto hodnotu lze zjistit v R prostřednictvím příkazu qnorm(α)

Příklad Při výrobě určitého výrobku je povolen podíl vadných výrobků nejvýše 0,04. Bylo odebráno 250 vzorků, z nichž se ukázalo, že je 21 vadných. Probíhá výroba výrobků korektně - ve stanovených mezích, či je výrobní proces nastaven špatně? Volte α = 0, 05 Zformulujme potřebné hypotézy: Dosadíme-li do vzorce získáme: atd... U = H 0 : π π 0 H A : π > π 0 0, 084 0, 04 0, 04 (0, 96) 250 = 3, 55023

Jak nato v R prop.test(21,250,p=.04,alternative="g",correct=false) 1-sample proportions test without continuity correction data: 21 out of 250, null probability 0.04 X-squared = 12.6042, df = 1, p-value = 0.0001924 alternative hypothesis: true p is greater than 0.04 95 percent confidence interval: 0.05940864 1.00000000 sample estimates: p 0.084 Z výsledku je zřejmé, že hodnota p-value = 1, 924 10 4. Lze tedy říci, že na základě předložených údajů a na hladině významnosti α = 0, 05, můžeme zamítnout nulovou hypotézu, ve prospěch alternativní hypotézy. Výrobní proces je tedy špatně nastaven.

Testy hypotéz typu π 1 = π 2 ve velkých výběrech, kde X i A(π i ), i = 1, 2. V případě, že testujeme hypotézu o shodě dvou relativních četností, přičemž předpokládáme nezávislost výběrů, tj testujeme-li: H 0 : π 1 = π 2, můžeme, v případě velkého výběru využít testového kritéria: U = ˆπ 1 ˆπ 2 π(1 π) ( n1 n 2 n 1 + n 2 kde ˆπ i představuje i-tou relativní četnost a průměrnou relativní četnost π stanovíme jako: π = m 1 + m 2 n 1 + n 2 = n 1ˆπ 1 + n 2ˆπ 2 n 1 + n 2. V případě dostatečného počtu pozorování v obou skupinách lze říci, že U N(0; 1). ),

Kritické hodnoty a příklad Kritické obory pro jednotlivé alternativní hypotézy lze v případě dostatečného počtu pozorování definovat následovně: H 0 H A K ˆπ 1 < π 2 {u; u u α } ˆπ 1 = π 2 ˆπ 1 > π 2 {u; u u 1 α } ˆπ 1 π 2 {u; u u 1 α/2 } Ve dvou závodech A a B se vyrábí určitý výrobek stejnou technologíı. Podíl vadných výrobků by měl být stejný. Z 200 výrobků závodu A bylo 10 vadných. Z 250 výrobků závodu B byl vadných 23. Je podíl vadných výrobků v závodě A nižší než v závodě B? Volte α = 0, 05.

Řešení v R Hypotézu tedy specifikujeme jako H 0 : π 1 π 2 versus H A : π 1 < π 2 prop.test(c(10,23),c(200,250),correct=false,alternative="l") 2-sample test for equality of proportions without continuity correction data: c(10, 23) out of c(200, 250) X-squared = 2.8842, df = 1, p-value = 0.04473 alternative hypothesis: less 95 percent confidence interval: -1.000000000-0.002673067 sample estimates: prop 1 prop 2 0.050 0.092 Vzhledem k dosažené hladině významnosti (p-value = 0,04473) lze říci, že závod B má statisticky významně vyšší podíl vadných výrobků než závod A.