y = 0, ,19716x.

Podobné dokumenty
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Testování statistických hypotéz

Pravděpodobnost a matematická statistika

Definice spojité náhodné veličiny zjednodušená verze

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Přijímací zkouška na navazující magisterské studium 2014

Pravděpodobnost a aplikovaná statistika

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aproximace binomického rozdělení normálním

KGG/STG Statistika pro geografy

Národníinformačnístředisko pro podporu jakosti

15. T e s t o v á n í h y p o t é z

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

pravděpodobnosti, popisné statistiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Odhad parametrů N(µ, σ 2 )

Výběrové charakteristiky a jejich rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Přednáška X. Testování hypotéz o kvantitativních proměnných

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Základy teorie pravděpodobnosti

Charakteristika datového souboru

Vybraná rozdělení náhodné veličiny

2 ) 4, Φ 1 (1 0,005)

Zápočtová práce STATISTIKA I

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

MATEMATIKA III V PŘÍKLADECH

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Kvantily a písmenové hodnoty E E E E-02

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Charakterizace rozdělení

Jednofaktorová analýza rozptylu

SPOJITÉ ROZDĚLENÍ PRAVDĚPODOBNOSTI. 7. cvičení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Cvičení ze statistiky - 8. Filip Děchtěrenko

Průzkumová analýza dat

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Testování statistických hypotéz

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

6.1 Normální (Gaussovo) rozdělení

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

7. Rozdělení pravděpodobnosti ve statistice

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

= = 2368

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Intervalové Odhady Parametrů

Kontingenční tabulky, korelační koeficienty

5. T e s t o v á n í h y p o t é z

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

IDENTIFIKACE BIMODALITY V DATECH

Odhad parametrů N(µ, σ 2 )

4ST201 STATISTIKA CVIČENÍ Č. 7

Rozdělení přenosové rychlosti disku

Příklady na testy hypotéz o parametrech normálního rozdělení

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Regresní analýza 1. Regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Testy. Pavel Provinský. 19. listopadu 2013

Návrh a vyhodnocení experimentu

Tomáš Karel LS 2012/2013

Bodové a intervalové odhady parametrů v regresním modelu

Fyzikální korespondenční seminář MFF UK

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

12. cvičení z PST. 20. prosince 2017

Normální (Gaussovo) rozdělení

ÚVOD. Rozdělení slouží: K přesnému popisu pravděpodobnostního chování NV Střední hodnota, rozptyl, korelace atd.

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tomáš Karel LS 2012/2013

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Normální rozložení a odvozená rozložení

Porovnání dvou výběrů

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Poznámky k předmětu Aplikovaná statistika, 5.téma

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

MATEMATICKÁ STATISTIKA

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

KGG/STG Statistika pro geografy

Téma 22. Ondřej Nývlt

Transkript:

Grafické ověřování a testování vybraných modelů 1 Grafické ověřování empirického rozdělení Při grafické analýze empirického rozdělení vycházíme z empirické distribuční funkce F n (x) příslušné k náhodnému výběru X 1, X 2,..., X n a sledujeme, do jaké míry se F n (x) shoduje s distribuční funkcí F (x), z níž náhodný výběr pochází. Protože shodu F n (x) s F (x) je často obtížné z jejich grafu posoudit, zavádí se vhodná transformace empirické distribuční funkce, která vede k lineárnímu průběhu této transformované funkce na hodnotách náhodného výběru. Jestliže náhodná veličina X N(µ, σ 2 ), pak lze její distribuční funkci napsat ve tvaru ( ) x µ F (x) = P (X x) = Φ, x R, (1) σ kde Φ je distribuční funkce normálního rozdělení N(0, 1). Aplikujeme-li na vztah (1) funkci Φ 1, která je inverzní funkcí k Φ, dostaneme použitím kvantilů u γ = Φ 1 (γ) vztah u F (x) = Φ 1 (F (x)) = x σ µ σ, který vyjadřuje kvantil u F (x) jako lineární funkci na x. Vyneseme-li do grafu body (x, u Fn(x)) pro hodnoty x = x (1),..., x (n), budou tyto body až na náhodné odchylky seskupeny kolem přímky, za předpokladu, že teoretická distribuční funkce náhodného výběru je distribuční funkcí normálního rozdělení N(µ, σ 2 ). Z grafu lze také odečíst, že pro u F (x) = 0 je x = µ a dále, že pro u F (t1 ) = 1 je t 1 = µ+σ a pro u F (t2 ) = 1 je t 2 = µ σ. Odtud plyne, že σ lze odhadnout veličinou σ = (t 1 t 2 )/2, kde t 1, respektive t 2 je bod, ve kterém přímka proložená body (x (i), u Fn(x (i) )) protíná rovnoběžku s osou x procházející bodem (0, 1) respektive (0, 1). Příklad Bylo zaznamenáno n = 15 dob čekání na příjezd vozu rychlé záchranné pomoci k silniční nehodě: 0,09; 1,15; 1,41; 1,55; 1,83; 2,15; 2,35; 2,96; 4,34; 4,58; 4,89; 6,06; 8,08; 15,06; 23,09. Uvedené hodnoty byly měřeny v minutách od okamžiku telefonického oznámení nehody na linku tísňového volání do okamžiku příjezdu vozu. Ověřte, zda lze data pokládat za náhodný výběr z normálního rozdělení. Proložená přímka má rovnici y = 0,79570 + 0,19716x. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326 PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.

x (i) F n (x (i) ) u Fn(x (i) ) 1 0,09 0,07 1,50 2 1,15 0,13 1,11 3 1,41 0,20 0,84 4 1,55 0,27 0,62 5 1,83 0,33 0,43 6 2,15 0,40 0,25 7 2,35 0,47 0,08 8 2,96 0,53 0,08 9 4,34 0,60 0,25 10 4,58 0,67 0,43 11 4,89 0,73 0,62 12 6,06 0,80 0,84 13 8,08 0,87 1,11 14 15,06 0,93 1,50 15 23,09 1,00 Distribuční funkce exponenciálního rozdělení Ex(λ) je F (x, λ) = 1 e λx pro x 0 a jinak je rovna nule. Pro x 0 lze ze vztahu pro distribuční funkci stanovit λx. Dostaneme λx = ln ( 1 F (x) ) 1 = ln 1 1 F (x). To znamená, že v případě, když náhodný výběr X 1,..., X n je exponenciálního rozdělení s parametrem λ, pak 1 body (x (i), ln 1 F (x (i) ) ) pro i = 1, 2,..., n vykazují lineární průběh. Po dosazení i n za F (x (i)) dostaneme, že body (x (i), ln n n i ) leží pro výběr z exponenciálního rozdělení přibližně na přímce. Z grafu této přímky lze také přibližně odhadnout λ. Je-li x = 1 λ, platí 1 = λx = ln 1 1 proložené body (x (i), ln 1 F (x (i) ) Tedy odtud λ je potom přibližně rovno 1/x 0. 1 F (x), a tedy x-ovou souřadnici x 0 průsečíku přímky ) s rovnoběžkou s osou x vedenou bodem (0, 1) lze považovat za odhad 1/λ. Příklad Grafickou metodou ověřte, zda data z předchozího příkladu lze považovat za náhodný výběr z exponenciálního rozdělení Ex(λ). Z grafu odhadněte parametr λ. 2

Podobným postupem jako v předchozím příkladě zde byly vypočteny hodnoty ln n n i pro n = 15 a i = 1,..., 14. Na následujícím obrázku jsou zobrazeny body (x (i), ln n n i ), i = 1,..., 14, a dále potom jimi proložená přímka y = 0,12274 + 0,19475x. Body vykazují přibližně lineární průběh, tedy lze pokládat náhodný výběr za hodnoty exponenciálního rozdělení. Parametr λ lze potom odhadnout z rovnice přímky tak, že ˆλ = 1 x pro y = 1, tedy ˆλ = 0,19475 1 0,12274. = 0,22199. Při grafickém ověřování rozdělení se někdy vychází z grafů, které se nazývají QQ plot (z anglického quantile-quantile plot). Tento graf se získá tak, že se na vertikální ose y vynášejí kvantily empirické distribuční funkce F n (x) a na horizontální osu x se vynášejí kvantily hypotetické distribuční funkce F (x). V programu R QQ plot získáme příkazem qqnorm pro normální rozdělení a qqplot libovolné rozdělení. Obr. 1: QQ plot pro ověření normálního rozdělení pro dobu čekání na příjezd vozu rychlé záchranné pomoci 3

Obr. 2: QQ plot pro ověření exponenciálního rozdělení pro dobu čekání na příjezd vozu rychlé záchranné pomoci 2 Testy dobré shody 2.1 χ 2 -test dobré shody Univerzálním testem k ověřování, zda náhodný výběr pochází z nějakého diskrétního či spojitého rozdělení, je tzv. χ 2 -test dobré shody. Hodnoty náhodného výběru x 1, x 2,..., x n roztřídíme do k disjunktních tříd, přičemž n j, j = = 1, 2,..., k, je četnost j-té třídy, resp. j-té obměny a ˆπ j je hypotetická pravděpodobnost, resp. její odhad, že náhodná veličina X nabude hodnoty z j-té třídy, resp. j-té obměny, počítaná za podmínky, že X má předpokládané rozdělení. Východiskem pro konstrukci testového kritéria je porovnání relativní četnosti n j /n s hypotetickou pravděpodobností ˆπ j, resp. s jejím odhadem. H 0 : náhodná veličina X má rozdělení daného typu H 1 : náhodná veličina X nemá rozdělení daného typu. Potom testové kritérium χ 2 = k (n j nˆπ j ) 2 j=1 má za předpokladu platnosti hypotézy H pro velké n (asymptoticky) Pearsonovo χ 2 rozdělení se stupni volnostiν = k c 1, kde c je počet odhadovaných parametrů ověřovaného rozdělení. Kritický obor je nˆπ j W α = { χ 2 ; χ 2 χ 2 1 α(ν) }, kde χ 2 1 α (ν) je kvantil Pearsonova rozdělení. Při praktickém provádění testu se požaduje, aby ve všech třídách byly teoretické četnosti větší než 5, tj. nˆπ j > 5, j = 1, 2,..., k. Není-li tato podmínka splněna, přistupujeme ke slučování tříd. 4

2.2 Kolmogorov-Smirnovův test Budeme předpokládat, že X 1, X 2,..., X n je náhodný výběr z rozdělení se spojitou distribuční funkcí, která nezávisí na neznámých parametrech. Chceme testovat nulovou hypotézu, že tato distribuční funkce je rovna dané distribuční funkci F. Je-li F n (x) výběrová distribuční funkce náhodného výběru X 1,..., X n, pak při Kolmogorově-Smirnovově testu se používá statistika D n = sup F n (x) F (x). x Protože distribuční funkce F je neklesající a F n je po částech konstantní funkce, která má skoky v bodech X (1), X (2),..., X (n), lze statistiku D přepsat do tvaru, který je výhodnější pro její výpočet. Dostaneme { [ D n = max max F (X(i) ) F n (X (i) ), F (X (i) ) F n (X (i 1) ) ]}, 1 i n kde F (X (i) ) je hodnota hypotetické distribuční funkce F v bodě X (i) a klademe F n (X (0) ) = 0. Nulovou hypotézu zamítneme na hladině významnosti α, když D n > D α (n) (kritické hodnoty jsou tabelovány). Je-li n velké, lze na základě aproximace P (D n > v) =. 2e 2nv, která dává uspokojivé výsledky pro n > 35, zamítnout hypotézu H 0 na hladině významnosti α, když pro hodnotu v statistiky D n, platí 2e 2nv2 < α. Odtud dostaneme pro asymptotické kritické hodnoty D α (n) vztah D α (n) =. 1 2n ln 2 α. Příklady k procvičení 1. Náhodná veličina X popisuje dobu do poruchy vybraného zařízení. Generujte náhodné výběry z rozdělení a) normálního N(0, 1) b) normálního N(10, 16) c) exponenciálního Ex(5) d) Weibullova W (2, 1) e) gamma Γ(2, 1) f) logaritmicko-normálního rozdělení LN(2, 4) postupně rozsahu n = 5, 10, 30, 50, 100. Graficky znázorněte výběrovou distribuční funkci, histogram, Q-Q plot a testujte hypotézu, že výběr pochází z hypotetického rozdělení, které vhodně vyberete. Vyberte také rozdělení z něhož je výběr a také rozdělení, které neodpovídá vybrané simulaci. Úlohu řešte také pro reálná data, která vyberete s ohledem na vaši studijní specializaci. Pro řešení využijte podle vlastní volby software STATISTICA, R nebo MATLAB. 2. Náhodná veličina X popisuje počet poruch vybraného zařízení za jednotku času. Generujte náhodné výběry z rozdělení a) binomického rozdělení Bi(10; 0,1) 5

b) Poissonova rozdělení P o(2) c) negativně binomického rozdělení NB(2; 0,5) postupně rozsahu n = 5, 10, 30, 50, 100. Graficky znázorněte výběrovou distribuční funkci, histogram, Q-Q plot a testujte hypotézu, že výběr pochází z hypotetického rozdělení, které vhodně vyberete. Vyberte také rozdělení z něhož je výběr a také rozdělení, které neodpovídá vybrané simulaci. Úlohu řešte také pro reálná data, která vyberete s ohledem na vaši studijní specializaci. Pro řešení využijte podle vlastní volby software STATISTICA, R nebo MATLAB. 6