Poznámky k předmětu Aplikovaná statistika, 11. téma

Podobné dokumenty
11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

12. cvičení z PST. 20. prosince 2017

PRAVDĚPODOBNOST A STATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 7

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Jana Vránová, 3. lékařská fakulta UK

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testy. Pavel Provinský. 19. listopadu 2013

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Poznámky k předmětu Aplikovaná statistika, 9.téma

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Kontingenční tabulky, korelační koeficienty

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Poznámky k předmětu Aplikovaná statistika, 5.téma

Výběrové charakteristiky a jejich rozdělení

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

2 ) 4, Φ 1 (1 0,005)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Pravděpodobnost a matematická statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Kontingenční tabulky a testy shody

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a aplikovaná statistika

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost a aplikovaná statistika

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

McNemarův test, Stuartův test, Test symetrie

Stručný úvod do testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Tomáš Karel LS 2012/2013

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Aproximace binomického rozdělení normálním

Základy teorie odhadu parametrů bodový odhad

Tomáš Karel LS 2012/2013

Matematická statistika Zimní semestr

Základy počtu pravděpodobnosti a metod matematické statistiky

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testování statistických hypotéz

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Testování hypotéz o parametrech regresního modelu

Normální (Gaussovo) rozdělení

Testování hypotéz o parametrech regresního modelu

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Jednostranné intervaly spolehlivosti

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Tomáš Karel LS 2012/2013

Kontingenční tabulky, korelační koeficienty

Téma 22. Ondřej Nývlt

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Normální (Gaussovo) rozdělení

KGG/STG Statistika pro geografy

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testy statistických hypotéz

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Testování hypotéz. 4. přednáška

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Statistika II. Jiří Neubauer

4EK211 Základy ekonometrie

Pravděpodobnost a statistika I KMA/K413

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R - cvičení 2

y = 0, ,19716x.

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Transkript:

Poznámky k předmětu Aplikovaná statistika, 11. téma Testy založené na χ 2 rozdělení V přehledu významných rozdělení jsme si uvedli, že Poissonovým rozdělením se modeluje počet událostí, které nastanou v nějaké měrné jednotce. To ovšem platí jen za předpokladu, že události nastávají náhodně a nezávisle na sobě. V reálném životě ovšem nemůžeme mít jistotu, zda jsou předpoklady splněny a jestli se tedy jedná právě o Poissonovo rozdělení (nebo kterékoliv jiné). Následující odstavec se věnuje jednomu z testů rozdělení. χ 2 test dobré shody Podívejme se nejdříve na případ, kdy chceme testovat, zda náhodný výběr pochází z diskrétního rozdělení. Spojitý případ je pak jednoduchým zobecněním. Příklad 1. Provedli jsme 600 hodů šestistěnnou kostkou. Výsledky jsou uvedeny v tabulce četností (n i je četnost počtu ok x i, i = 1,..., 6): i 1 2 3 4 5 6 počet ok x i 1 2 3 4 5 6 četnost n i 122 80 85 98 125 90 Otestujte na hladině významnosti 1 %, zda je kostka spravedlivá, tj. zajímá nás, zdali počty ok pocházejí z diskrétního rovnoměrného rozdělení na množině {1,..., 6}. Uvažujme náhodný výběr X 1,..., X n. Chtěli bychom otestovat, zda výběr pochází z rozdělení L, jehož parametry známe. Nulová a alternativní hypotéza jsou tvaru H 0 : náhodný výběr pochází z rozdělení L H 1 : non H 0 (náhodný výběr nepochází z rozdělení L). Předpokládejme, že, stejně jako v Příkladě 1, máme realizaci náhodného výběru uspořádanou do tabulky četností. Definujme si teoretické četnosti jednotlivých tříd N i = n p(x i ), i = 1,... k, kde p(x i ) = P (X = x i ) pro náhodnou veličinu X mající rozdělení L. Teoretická četnost N i odpovídá tomu, kolikrát by v n pokusech měla přibližně nastat možnost x i, pokud výběr skutečně pochází z L. Myšlenka χ 2 testu dobré shody je geniálně jednoduchá. Pokud výběr pochází z hypotetického rozdělení, pak by skutečné četnosti n i jednotlivých tříd měly být příbližně stejné jako teoretické četnosti N i. Testová statistika je založena na rozdílech n i N i. Její přesný tvar je k (n i N i ) 2 N i a za platnosti H 0 má asymptoticky χ 2 rozdělení o k 1 stupních volnosti. 1

Požadavek, že testované rozdělení známe včetně jeho parametrů, není v běžném životě obvyklý (pokud zrovna nechceme testovat např. rovnoměrné rozdělení jako v Příkladě 1). Předpokládejme proto, že náhodný výběr pochází z rozdělení L(θ), kde θ je neznámý parametr. Chceme-li využít výše uvedený postup k testování rozdělení, v němž se počítají teoretické četnosti N i rozdělení L(θ), je nutné parametr θ z dat nějak rozumně odhadnout. V Příkladě 2, v němž chceme testovat, že Příklad 2. Z nejmenovaného supermarketu jsme dostali informace o zásilce vajec. Přesněji, kolik rozbitých vajec bylo v jednotlivých (malých) platech pocházejících z této zásilky. Počty jsou uvedeny v tabulce četností, kde n i značí počet plat, v nichž bylo právě x i rozbitých vajec. i 1 2 3 4 5 6 7 x i 0 1 2 3 4 5 6 n i 28 15 2 4 1 0 0 Nás by zajímalo, zda počty rozbitých vajec v platu mají binomické rozdělení. výběr pochází z Bi(6, p), bychom mohli odhadnout střední hodnotu µ pomocí průměru X a parametr p pak z rovnosti µ = 6p. Musíme však mít na paměti, že zamítneme-li nulovou hypotézu, zamítáme pouze, že výběr pochází z binomického rozdělení s daným (odhadnutým) parametrem p a nikoliv, že pochází z binomického rozdělení obecně. Takto použitý test tedy neumí testovat typ rozdělení, pouze konkrétní rozdělení s konkrétní volbou parametrů. Tento nedostatek je však možné odstranit. Pokud odhadneme neznámý parametr θ rozdělení L(θ) tzv. modifikovanou metodou minimálního χ 2, lze dokázat, že testová statistika k (n i ˆN i ) 2 ˆN i 1 má za platnosti H 0 asymptoticky χ 2 rozdělení o k r 1 stupních volnosti, kde r je počet odhadnutých parametrů rozdělení, ˆN i = nˆp(x i ), kde ˆp(x i ) p(x i, ˆθ) jsou odhady p(x i ) založené na modifikované metodě minimálního χ 2. Jelikož je obvykle nemožné získat ˆp(x i ) modifikovanou metodou minimálního χ 2 přesně (jde o řešení složité soustavy rovnic), jako odhady pravděpodobností p(x i ) se běžně berou rozumné odhady spočítané z dat (viz komentář k Příkladu 2). Tímto postupem se v praxi testuje nulová hypotéza, že data pocházejí z daného typu rozdělení L(θ) proti alternativě, že tomu tak není. Poznámka 1. Kvůli přibližnému charakteru χ 2 testu dobré shody je nezbytné klást požadavky na četnosti jednotlivých tříd. Je třeba, aby ˆN i 1, i, a ˆN i 5 pro alepoň 80% tříd. Pokud nejsou tyto předpoklady splněny, je třeba vhodně sloučit některé třídy (anebo si obstarat další data). Pokud to není možné, nelze test použít. 1 Po úpravách lze získat pro numerické výpočty vhodnější tvar i když z něj není patrné, jak testová statistika vznikla. k n 2 i ˆN i n, 2

Pro spojitý případ si opět uvedeme ilustrační příklad. Mějme realizaci náhodného výběru ze spojitého rozdělení danou následující tabulkou četností: zástupce 6 7 8 9 10 38 x 6, 5 6, 5 7, 5 7, 5 8, 5 8, 5 9, 5 9, 5 10, 5 37, 5 n i 3 7 20 10 9 1 Teoretické četnosti jednotlivých tříd (či jejich odhady) se spočítají analogicky jako v případě diskrétním, ale pravděpodobnosti p(x i ) jsou nahrazeny pravděpodobnostmi, že náhodná veličina s rozdělením L(θ) padne do daného intervalu. Tyto pravděpodobnosti spočteme z hustoty nebo z tabulek v případě, že známe všechny parametry rozdělení. Pokud některé parametry neznáme, odhadneme je z dat. Testy nezávislosti v kontingenčních tabulkách Nyní bychom rádi zkoumali závislost barvy očí a barvy vlasů. V předchozí kapitole jsme se seznámili s testem nezávislosti založeným na výběrovém korelačním koeficientu. Pro případ barvy očí a vlasů je ovšem tento test nepoužitelný. Nejedná se totiž o přirozené číselné veličiny, ale o tzv. kvalitativní veličiny. Můžeme jim sice přiřadit (pro snadnou manipulaci) číselné hodnoty, ale nemůžeme zavést žádné uspořádání nemá smysl diskutovat, zda jsou modré oči víc než oči zelené. Pro takový případ je vhodné použít tzv. kontingenční tabulky. Jedná se o tabulku četností, jejíž řádky udávají četnosti veličiny X (barva vlasů) a sloupce četnosti veličiny Y (barva očí). zelené modré hnědé černé blond 6 12 4 0 hnědé 11 7 13 3 černé 1 0 9 17 zrzavé 15 8 6 2 Chceme testovat, zda jsou veličiny X a Y nezávislé. Uvažujme obecně kontingenční tabulku (n ij ) o r řádcích a c sloupcích. Označme n = r c j=1 n ij a dále n i = n j = c n ij, j=1 r n ij. Definujme ˆN ij = n i n j n. (1) Potom testová statistika pro nulovou hypotézu H 0 : veličiny X a Y jsou nezávislé, 3

oproti alternativě, že tomu tak není, má tvar r c j=1 (n ij ˆN ij ) 2 ˆN ij, 2 a za platnosti H 0 má asymptoticky χ 2 rozdělení o (r 1)(c 1) stupních volnosti. Poznámka 2. Ačkoliv se mohou oba výše zmiňované testy zdát na první pohled absolutně odlišné, jedná se v podstatě o jeden a tentýž test. Stačí si uvědomit definici nezávislosti náhodných veličin, tedy že (diskrétní) veličiny X a Y jsou nezávislé právě tehdy, když zkráceně P (X = x i, Y = y j ) = P (X = x i )P (Y = y j ), x i, y j, p ij = p i p j, i, j. Jde o testování H 0 : p ij = p i p j, i, j, proti alternativě, že tomu tak není. Jedná se tedy o test shody dat se součinovým rozdělením, za platnosti H 0 by pro teoretické četnosti N ij platilo N ij = n p ij = n p i p j. Jelikož marginální pravděpodobnosti p i, p j vektoru (X, Y ), je třeba je odhadnout z dat obecně závisí na parametru θ rozdělení náhodného ˆp i = n i n, ˆp j = n j n, kde n i, n j jsou skutečné marginální četnosti. Pak (srovnej s (1)). CVIČENÍ K TOMUTO TÉMATU ˆN ij = n ˆp i ˆp j = n ni n n j n = n i n j n (i) Necht náhodná veličina X udává procentuální obsah bílkovin v zrnech pšenice. Testujte (na hladině 1 %), zdali má X normální rozdělení, pokud máte k dispozici data: x i do 8, 5 8, 5 9, 5 9, 5 10, 5 10, 5 11, 5 přes 11, 5 n i 2 10 10 35 33 (ii) Zkoumá se, zdali jsou rodinný stav ženicha (svobodný, rozvedený, vdovec) a nevěsty (svobodná, rozvedená, vdova) na sobě nezávislé na hladině významnosti 5 %. K dispozici jsou počty sňatků mezi jednotlivými skupinami za jeden rok: 2 Viz poznámku pod čarou 1, r c n n 2 ij 1. n i n j j=1 4

Nevěsta Ženich svobodná rozvedená vdova svobodný 7220 190 642 rozvedený 230 20 29 vdovec 760 29 45 (iii) Na základě ankety vykonané u studentů Aplikované statistiky z loňského roku byla statisticky odvozena oblíbenost kofoly (K) a piva (P). Pravěpodobnostní rozdělení je uvedeno v tabulce (symbol K značí negaci ke K, tedy nepití kofoly ): P K P K P K P K 0, 35 0, 3 0, 25 0, 1 63 15 19 9 Poslední řádek udává četnosti jednotlivých možností získaných průzkumem ve vašich paralelkách. Otestujte na hladině 5 % hypotézu, zda jsou vaše chutě stejné jako chutě loňských studentů. (iv) Byly zjištěny následky 50 lidí ušknutých vzácným druhem hada a také informace, zdali ušknutí lidé užívali léky proti vysokému tlaku: Užívali léky Následky smrt silné křeče, přežili žádné následky ano 14 6 7 ne 9 3 11 Rozhodněte, zda jsou následky uštknutí významně závislé na tom, zda uštknutí lidé používali léky proti vysokému tlaku (na hladině významnosti 10 %). (dcv) V jedné lokální fotbalové lize se sledoval počet vstřelených branek za jednu sezónu: počet branek 0 1 2 3 4 a více četnost 19 30 17 10 8 Zjistěte na hladině významnosti α = 5 %, zda počet vstřelených branek pochází z Poissonova rozdělení. 5