Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Podobné dokumenty
Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

= = 2368

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Charakteristika datového souboru

You created this PDF from an application that is not licensed to print to novapdf printer (

12. cvičení z PST. 20. prosince 2017

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

4ST201 STATISTIKA CVIČENÍ Č. 7

Cvičení ze statistiky - 9. Filip Děchtěrenko

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testy. Pavel Provinský. 19. listopadu 2013

Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Normální (Gaussovo) rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Testování statistických hypotéz

Cvičení ze statistiky - 8. Filip Děchtěrenko

VYUŽITÍ SIMULACE PŘI MODELOVÁNÍ PROVOZU NA SVÁŽNÉM PAHRBKU SEŘAĎOVACÍ STANICE

Stručný úvod do testování statistických hypotéz

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Pravděpodobnost a aplikovaná statistika

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Aproximace binomického rozdělení normálním

STATISTICKÉ TESTY VÝZNAMNOSTI

Normální (Gaussovo) rozdělení

STATISTICKÉ TESTY VÝZNAMNOSTI

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jednostranné intervaly spolehlivosti

Zápočtová práce STATISTIKA I

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

5 Parametrické testy hypotéz

Testování statistických hypotéz. Obecný postup

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

2 ) 4, Φ 1 (1 0,005)

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

KGG/STG Statistika pro geografy

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Regresní analýza 1. Regresní analýza

Testování statistických hypotéz

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

15. T e s t o v á n í h y p o t é z

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Příklady na testy hypotéz o parametrech normálního rozdělení

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Testování hypotéz. 4. přednáška

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

T E O R I E C H Y B A V Y R O V N Á V A C Í P O

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Statistické metody uţívané při ověřování platnosti hypotéz

Testy statistických hypotéz

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Náhodné veličiny, náhodné chyby

TECHNICKÁ UNIVERZITA V LIBERCI

Jednofaktorová analýza rozptylu

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

TECHNICKÁ UNIVERZITA V LIBERCI

STATISTICKÉ HYPOTÉZY

Národníinformačnístředisko pro podporu jakosti

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování statistických hypotéz

Jednofaktorová analýza rozptylu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Transkript:

Testování statistických hypotéz Ing. Michal Dorda, Ph.D.

Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině významnosti α= 0,05 pomocí χ testu dobré shody, zda získaná data pocházejí z normálního rozdělení. Data jsou uložena v souboru Mezery.xls. Ing. Michal Dorda, Ph.D.

Testování normality Abychom byli schopni specifikovat nulovou a alternativní hypotézu, je nejdříve třeba odhadnout na základě výběru neznámé parametry normálního rozdělení μa σ. Odhad provedeme např. pomocí metody maximální věrohodnosti. Odvodili jsme si, že: n ˆ µ = x = x i, n i= n ˆ σ = x i x n i= ( ). Ing. Michal Dorda, Ph.D. 3

Testování normality Odhad parametrů rozdělení μ 4,6985 σ 0,85075 σ 3,9405 např. funkce PRŮMĚR např. funkce DEVSQ / POČET např. funkce ODMOCNINA Ing. Michal Dorda, Ph.D. 4

Testování normality Máme proveden odhad parametrů rozdělení, můžeme tedy specifikovat obě hypotézy: H 0 Náhodný výběr pochází z normálního rozdělení se střední hodnotou μ= 4,6985 a rozptylem σ = 0,85075. H Náhodný výběr nepochází z normálního rozdělení se střední hodnotou μ= 4,6985 a rozptylem σ = 0,85075. Ing. Michal Dorda, Ph.D. 5

Testování normality Víme, že pro testovou statistiku platí: G ( ) k n = i n π 0, i χk h n π i= 0, i Abychom mohli stanovit x obs, musíme získaný datový soubor rozdělit do tříd. Doporučuje se volit konstantní šířku třídy (vyjma tříd krajních), počet tříd se doporučuje volit v rozmezí 5 5.. Ing. Michal Dorda, Ph.D. 6

Testování normality Pro odhad počtu tříd k se nejčastěji používá Sturgesovo pravidlo: k + 3,3 log n, kde nje rozsah souboru (zjistíme např. pomocí funkce POČET). V našem případě n= 3, dostáváme tedy: k + 3,3 log3 = & 8. Ing. Michal Dorda, Ph.D. 7

Testování normality Nyní je třeba zvolit vhodnou šířku třídy š, kterou můžeme stanovit podle vztahu: š = x max x k min, kde x max je maximální hodnota ve výběru (zjistíme např. pomocí funkce MAX) a x min je minimální hodnota ve výběru (zjistíme např. pomocí funkce MIN). V našem případě: 4,9 0,80 š = = & 3. 8 Ing. Michal Dorda, Ph.D. 8

Testování normality Nyní vhodně zvolíme hranice jednotlivých tříd a pozorované četnosti v jednotlivých třídách zjistíme pomocí funkce ČETNOSTI. Hranice tříd Četnosti ( ; 3 4 ( ; 4 63 7 ( 4; 7 45 0 ( 7; 0 3 ( 0; 3 6 6 ( 3; 6 9 ( 6; 9 0 ( 9; ) Ing. Michal Dorda, Ph.D. 9

Testování normality Horní Pozorovaná Hodnota distribuční Teoretická relativní Teoretická Třída Hranice třídy hranice h i četnost n i funkce F(h i ) četnost π 0,i četnost n π 0,i (- ;> 3 0,3590 0,3590 7,8035 (;4> 4 63 0,4537 0,8947 37,9009 3 (4;7> 7 45 0,76503 0,33965 44,49473 4 (7;0> 0 0,94880 0,8377 4,0740 5 (0;3> 3 6 0,9945 0,0457 5,98989 6 (3;6> 6 0,9997 0,0050 0,6869 7 (6;9> 9 0 0,99999 0,0007 0,0355 8 (9; ),00000 0,0000 0,00083 3,00000 3 Hodnoty distribuční funkce pro jednotlivé horní meze tříd h i stanovíme pomocí funkce NORMDIST, kde za parametry střední hodnota a směrodatná odchylka dosadíme bodové odhady. Ing. Michal Dorda, Ph.D. 0

Testování normality Z tabulky vidíme, že pro třídy 6, 7 a 8 není splněna podmínka, že všechny teoretické četnosti musí být větší než 5, sloučíme tedy tyto třídy s třídou 5. Třída Hranice Horní Pozorovaná Teoretická ( n i n ) třídy hranice četnost n i četnost n π n π 0,i 0, i π 0, i (- ;> 3 7,8035,30903 (;4> 4 63 37,9009 6,58757 3 (4;7> 7 45 44,49473 0,00574 4 (7;0> 0 4,0740 6,05557 5 (0; ) 8 6,70765 0,4899 x obs 3 3 35,0690 Ing. Michal Dorda, Ph.D.

Testování normality Nyní je třeba stanovit kritickou hodnotu testu. Jelikož hladina významnosti α= 0,05, po sloučení máme 5 tříd (k) a odhadovali jsme dva parametry rozdělení (h), dostáváme: χ χ xkrit = ( α ); k h = 0,95; = CHIINV ( 0,05; ) = & 5,99. Vidíme, že pozorovaná hodnota testové statistiky je vyšší než kritická hodnota testu, leží tedy v kritickém oboru, proto na hladině významnosti 0,05 zamítáme nulovou hypotézu ve prospěch alternativní. Normalita dat tedy nebyla potvrzena. Ing. Michal Dorda, Ph.D.

Test hypotézy o střední hodnotě Př. : Při simulaci systému hromadné obsluhy byly sledovány doby obsluhy požadavků v [min]. Získaná data jsou uložena v souboru Obsluha.xls. Na hladině významnosti 0,05 otestujte hypotézu, že střední hodnota doby obsluhy je rovna 0 min. Předpokládejte, že normalita dat je splněna, směrodatnou odchylku základního souboru neznáme. Ing. Michal Dorda, Ph.D. 3

Test hypotézy o střední hodnotě Než přistoupíme k formulaci hypotéz, spočítejme si některé číselné charakteristiky náhodného výběru, které budeme dále potřebovat. Rozsah souboru n 00 Výběrový průměr x 0,5 Výběrová směrodatná odchylka s 7,76 Střední hodnota populace μ 0 0,00 např. funkce SMODCH.VÝBĚR Ing. Michal Dorda, Ph.D. 4

Test hypotézy o střední hodnotě Nyní formulujme obě hypotézy: H 0 Střední doba obsluhy v systému hromadné obsluhy je rovna 0 min. H Střední doba obsluhy v systému hromadné obsluhy se nerovná 0 min (vidíme, že vypočítaný výběrový průměr se blíží této hodnotě, proto volíme oboustrannou hypotézu, v úvahu dále přichází i pravostranná alternativa). Ing. Michal Dorda, Ph.D. 5

Test hypotézy o střední hodnotě Sice neznáme směrodatnou odchylku, ale máme výběr velkého rozsahu, mohli bychom tedy Studentovo rozdělení aproximovat normovaným. V tomto případě ale použijeme Studentovo rozdělení. Pozorovaná hodnota testové statistiky je rovna: x µ 0 0,5 0 x obs = n = 00 = & s 7,76 0,67. Ing. Michal Dorda, Ph.D. 6

Test hypotézy o střední hodnotě Nyní přistoupíme ke stanovení kritických hodnot testu. Víme, že testová statistika se řídí Studentovým rozdělením s 99 stupni volnosti, hladina významnosti je 0,05. Můžeme tedy psát: x x krit, L krit, P = t = t α ; n α ; n 0,975;99 0,975;99 Kritický obor je tedy = = t t = TINV = TINV ( 0,05;99 ) ( 0,05;99 ) = &,98. = &,98, ( ;,98 U,98;. ) Ing. Michal Dorda, Ph.D. 7

Test hypotézy o střední hodnotě Vidíme tedy, že pozorovaná hodnota testové statistiky neleží v kritickém oboru, tudíž na hladině významnosti 0,05 nezamítáme hypotézu o tom, že střední doba obsluhy v simulovaném systému hromadné obsluhy je rovna 0 min. Ing. Michal Dorda, Ph.D. 8

Test hypotézy o rovnosti dvou středních hodnot Př. 3: Při dvou nezávislých simulačních experimentech byla simulována obsluha v systému hromadné obsluhy. Byly získány dva náhodné výběry a to doby obsluhy v [min], data jsou uložena v souboru Obsluha.xls. Na hladině významnosti 0,05 otestujte hypotézu, že střední hodnoty obou souborů jsou shodné. Předpokládejte, že normalita dat je splněna, směrodatné odchylky rozdělení nejsou známy. Ing. Michal Dorda, Ph.D. 9

Test hypotézy o rovnosti dvou středních hodnot Určeme si nejdříve pro oba datové soubory potřebné číselné charakteristiky. První výběr Rozsah souboru n 00 Výběrový průměr x 0,5 Výběrová směrodatná odchylka s 7,76 Druhý výběr Rozsah souboru n 00 Výběrový průměr x 3,75 Výběrová směrodatná odchylka s,3 Ing. Michal Dorda, Ph.D. 0

Test hypotézy o shodě dvou středních hodnot V tomto případě je zřejmé, že neznáme směrodatné odchylky populací (máme pouze jejich odhady). Proto musíme nejdříve přistoupit k otestování, zda lze očekávat shodné rozptyly obou populací či nikoliv. K tomu použijeme F-test, budeme uvažovat hladinu významnosti rovnu 0,05. Ing. Michal Dorda, Ph.D.

Test hypotézy o shodě dvou středních hodnot Stanovme si obě hypotézy k F-testu: H 0 Rozptyl populace je roven rozptylu populace, tedy σ = σ H Rozptyl populace je menší než rozptyl populace (vypovídají o tom oba náhodné výběry), tedy σ <. σ Dosazením do vztahu pro testovou statistiku dostaneme: F s 7,76 = = & s,3 = 0,49.. Ing. Michal Dorda, Ph.D.

Test hypotézy o shodě dvou středních hodnot Nyní musíme stanovit kritickou hodnotu testu, pro kterou v případě zvolené levostranné alternativy platí: x krit = F α ; n = ; ; = FINV ( α n n ) ; n = FINV ( 0,95;99;99 ) = & 0,7. Jelikož z výsledků testu vidíme, že pozorovaná hodnota testové statistiky leží v kritickém oboru, zamítáme nulovou hypotézu o rovnosti rozptylů obou populací. Musíme tedy použít 3. variantu. Ing. Michal Dorda, Ph.D. 3

Test hypotézy o rovnosti dvou středních hodnot Formulujme nyní obě hypotézy: H 0 Střední hodnoty obou souborů jsou si rovny, tedy μ = μ. H Střední hodnota prvního souboru je nižší než střední hodnota druhého souboru, tedy μ <μ (výběrové průměry ukazují na tuto nerovnost, v úvahu připadá i oboustranná alternativa). Ing. Michal Dorda, Ph.D. 4

Test hypotézy o rovnosti dvou středních hodnot Dosazením do známého vztahu stanovíme pozorovanou hodnotu testové statistiky: T ( x x ) ( µ µ ) ( 0,5 3,75) 0 = = = & s s 7,76,3 + + n n 00 00,39. Počet stupňů volnosti testového rozdělení získáme rovněž dosazením do známého vzorce, výsledek musíme zaokrouhlit na celé číslo. Ing. Michal Dorda, Ph.D. 5

Test hypotézy o rovnosti dvou středních hodnot = + + n s n n s n n s n s v Ing. Michal Dorda, Ph.D. 6 77. 00,3 00 00 7,76 00 00,3 00 7,76 + + = n n n n

Test hypotézy o rovnosti dvou středních hodnot Pro kritickou hodnotu testu platí: x = t = t = TINV ( 0,;77 ) =,65, krit α ; v 0,95;77 kritický obor je tedy tvořen intervalem vypočítaná hodnota testové statistiky leží v kritickém oboru, proto na hladině významnosti α= 0,05 zamítáme nulovou hypotézu o rovnosti středních hodnot. ( ;,65, Ing. Michal Dorda, Ph.D. 7