Testování statistických hypotéz Ing. Michal Dorda, Ph.D.
Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině významnosti α= 0,05 pomocí χ testu dobré shody, zda získaná data pocházejí z normálního rozdělení. Data jsou uložena v souboru Mezery.xls. Ing. Michal Dorda, Ph.D.
Testování normality Abychom byli schopni specifikovat nulovou a alternativní hypotézu, je nejdříve třeba odhadnout na základě výběru neznámé parametry normálního rozdělení μa σ. Odhad provedeme např. pomocí metody maximální věrohodnosti. Odvodili jsme si, že: n ˆ µ = x = x i, n i= n ˆ σ = x i x n i= ( ). Ing. Michal Dorda, Ph.D. 3
Testování normality Odhad parametrů rozdělení μ 4,6985 σ 0,85075 σ 3,9405 např. funkce PRŮMĚR např. funkce DEVSQ / POČET např. funkce ODMOCNINA Ing. Michal Dorda, Ph.D. 4
Testování normality Máme proveden odhad parametrů rozdělení, můžeme tedy specifikovat obě hypotézy: H 0 Náhodný výběr pochází z normálního rozdělení se střední hodnotou μ= 4,6985 a rozptylem σ = 0,85075. H Náhodný výběr nepochází z normálního rozdělení se střední hodnotou μ= 4,6985 a rozptylem σ = 0,85075. Ing. Michal Dorda, Ph.D. 5
Testování normality Víme, že pro testovou statistiku platí: G ( ) k n = i n π 0, i χk h n π i= 0, i Abychom mohli stanovit x obs, musíme získaný datový soubor rozdělit do tříd. Doporučuje se volit konstantní šířku třídy (vyjma tříd krajních), počet tříd se doporučuje volit v rozmezí 5 5.. Ing. Michal Dorda, Ph.D. 6
Testování normality Pro odhad počtu tříd k se nejčastěji používá Sturgesovo pravidlo: k + 3,3 log n, kde nje rozsah souboru (zjistíme např. pomocí funkce POČET). V našem případě n= 3, dostáváme tedy: k + 3,3 log3 = & 8. Ing. Michal Dorda, Ph.D. 7
Testování normality Nyní je třeba zvolit vhodnou šířku třídy š, kterou můžeme stanovit podle vztahu: š = x max x k min, kde x max je maximální hodnota ve výběru (zjistíme např. pomocí funkce MAX) a x min je minimální hodnota ve výběru (zjistíme např. pomocí funkce MIN). V našem případě: 4,9 0,80 š = = & 3. 8 Ing. Michal Dorda, Ph.D. 8
Testování normality Nyní vhodně zvolíme hranice jednotlivých tříd a pozorované četnosti v jednotlivých třídách zjistíme pomocí funkce ČETNOSTI. Hranice tříd Četnosti ( ; 3 4 ( ; 4 63 7 ( 4; 7 45 0 ( 7; 0 3 ( 0; 3 6 6 ( 3; 6 9 ( 6; 9 0 ( 9; ) Ing. Michal Dorda, Ph.D. 9
Testování normality Horní Pozorovaná Hodnota distribuční Teoretická relativní Teoretická Třída Hranice třídy hranice h i četnost n i funkce F(h i ) četnost π 0,i četnost n π 0,i (- ;> 3 0,3590 0,3590 7,8035 (;4> 4 63 0,4537 0,8947 37,9009 3 (4;7> 7 45 0,76503 0,33965 44,49473 4 (7;0> 0 0,94880 0,8377 4,0740 5 (0;3> 3 6 0,9945 0,0457 5,98989 6 (3;6> 6 0,9997 0,0050 0,6869 7 (6;9> 9 0 0,99999 0,0007 0,0355 8 (9; ),00000 0,0000 0,00083 3,00000 3 Hodnoty distribuční funkce pro jednotlivé horní meze tříd h i stanovíme pomocí funkce NORMDIST, kde za parametry střední hodnota a směrodatná odchylka dosadíme bodové odhady. Ing. Michal Dorda, Ph.D. 0
Testování normality Z tabulky vidíme, že pro třídy 6, 7 a 8 není splněna podmínka, že všechny teoretické četnosti musí být větší než 5, sloučíme tedy tyto třídy s třídou 5. Třída Hranice Horní Pozorovaná Teoretická ( n i n ) třídy hranice četnost n i četnost n π n π 0,i 0, i π 0, i (- ;> 3 7,8035,30903 (;4> 4 63 37,9009 6,58757 3 (4;7> 7 45 44,49473 0,00574 4 (7;0> 0 4,0740 6,05557 5 (0; ) 8 6,70765 0,4899 x obs 3 3 35,0690 Ing. Michal Dorda, Ph.D.
Testování normality Nyní je třeba stanovit kritickou hodnotu testu. Jelikož hladina významnosti α= 0,05, po sloučení máme 5 tříd (k) a odhadovali jsme dva parametry rozdělení (h), dostáváme: χ χ xkrit = ( α ); k h = 0,95; = CHIINV ( 0,05; ) = & 5,99. Vidíme, že pozorovaná hodnota testové statistiky je vyšší než kritická hodnota testu, leží tedy v kritickém oboru, proto na hladině významnosti 0,05 zamítáme nulovou hypotézu ve prospěch alternativní. Normalita dat tedy nebyla potvrzena. Ing. Michal Dorda, Ph.D.
Test hypotézy o střední hodnotě Př. : Při simulaci systému hromadné obsluhy byly sledovány doby obsluhy požadavků v [min]. Získaná data jsou uložena v souboru Obsluha.xls. Na hladině významnosti 0,05 otestujte hypotézu, že střední hodnota doby obsluhy je rovna 0 min. Předpokládejte, že normalita dat je splněna, směrodatnou odchylku základního souboru neznáme. Ing. Michal Dorda, Ph.D. 3
Test hypotézy o střední hodnotě Než přistoupíme k formulaci hypotéz, spočítejme si některé číselné charakteristiky náhodného výběru, které budeme dále potřebovat. Rozsah souboru n 00 Výběrový průměr x 0,5 Výběrová směrodatná odchylka s 7,76 Střední hodnota populace μ 0 0,00 např. funkce SMODCH.VÝBĚR Ing. Michal Dorda, Ph.D. 4
Test hypotézy o střední hodnotě Nyní formulujme obě hypotézy: H 0 Střední doba obsluhy v systému hromadné obsluhy je rovna 0 min. H Střední doba obsluhy v systému hromadné obsluhy se nerovná 0 min (vidíme, že vypočítaný výběrový průměr se blíží této hodnotě, proto volíme oboustrannou hypotézu, v úvahu dále přichází i pravostranná alternativa). Ing. Michal Dorda, Ph.D. 5
Test hypotézy o střední hodnotě Sice neznáme směrodatnou odchylku, ale máme výběr velkého rozsahu, mohli bychom tedy Studentovo rozdělení aproximovat normovaným. V tomto případě ale použijeme Studentovo rozdělení. Pozorovaná hodnota testové statistiky je rovna: x µ 0 0,5 0 x obs = n = 00 = & s 7,76 0,67. Ing. Michal Dorda, Ph.D. 6
Test hypotézy o střední hodnotě Nyní přistoupíme ke stanovení kritických hodnot testu. Víme, že testová statistika se řídí Studentovým rozdělením s 99 stupni volnosti, hladina významnosti je 0,05. Můžeme tedy psát: x x krit, L krit, P = t = t α ; n α ; n 0,975;99 0,975;99 Kritický obor je tedy = = t t = TINV = TINV ( 0,05;99 ) ( 0,05;99 ) = &,98. = &,98, ( ;,98 U,98;. ) Ing. Michal Dorda, Ph.D. 7
Test hypotézy o střední hodnotě Vidíme tedy, že pozorovaná hodnota testové statistiky neleží v kritickém oboru, tudíž na hladině významnosti 0,05 nezamítáme hypotézu o tom, že střední doba obsluhy v simulovaném systému hromadné obsluhy je rovna 0 min. Ing. Michal Dorda, Ph.D. 8
Test hypotézy o rovnosti dvou středních hodnot Př. 3: Při dvou nezávislých simulačních experimentech byla simulována obsluha v systému hromadné obsluhy. Byly získány dva náhodné výběry a to doby obsluhy v [min], data jsou uložena v souboru Obsluha.xls. Na hladině významnosti 0,05 otestujte hypotézu, že střední hodnoty obou souborů jsou shodné. Předpokládejte, že normalita dat je splněna, směrodatné odchylky rozdělení nejsou známy. Ing. Michal Dorda, Ph.D. 9
Test hypotézy o rovnosti dvou středních hodnot Určeme si nejdříve pro oba datové soubory potřebné číselné charakteristiky. První výběr Rozsah souboru n 00 Výběrový průměr x 0,5 Výběrová směrodatná odchylka s 7,76 Druhý výběr Rozsah souboru n 00 Výběrový průměr x 3,75 Výběrová směrodatná odchylka s,3 Ing. Michal Dorda, Ph.D. 0
Test hypotézy o shodě dvou středních hodnot V tomto případě je zřejmé, že neznáme směrodatné odchylky populací (máme pouze jejich odhady). Proto musíme nejdříve přistoupit k otestování, zda lze očekávat shodné rozptyly obou populací či nikoliv. K tomu použijeme F-test, budeme uvažovat hladinu významnosti rovnu 0,05. Ing. Michal Dorda, Ph.D.
Test hypotézy o shodě dvou středních hodnot Stanovme si obě hypotézy k F-testu: H 0 Rozptyl populace je roven rozptylu populace, tedy σ = σ H Rozptyl populace je menší než rozptyl populace (vypovídají o tom oba náhodné výběry), tedy σ <. σ Dosazením do vztahu pro testovou statistiku dostaneme: F s 7,76 = = & s,3 = 0,49.. Ing. Michal Dorda, Ph.D.
Test hypotézy o shodě dvou středních hodnot Nyní musíme stanovit kritickou hodnotu testu, pro kterou v případě zvolené levostranné alternativy platí: x krit = F α ; n = ; ; = FINV ( α n n ) ; n = FINV ( 0,95;99;99 ) = & 0,7. Jelikož z výsledků testu vidíme, že pozorovaná hodnota testové statistiky leží v kritickém oboru, zamítáme nulovou hypotézu o rovnosti rozptylů obou populací. Musíme tedy použít 3. variantu. Ing. Michal Dorda, Ph.D. 3
Test hypotézy o rovnosti dvou středních hodnot Formulujme nyní obě hypotézy: H 0 Střední hodnoty obou souborů jsou si rovny, tedy μ = μ. H Střední hodnota prvního souboru je nižší než střední hodnota druhého souboru, tedy μ <μ (výběrové průměry ukazují na tuto nerovnost, v úvahu připadá i oboustranná alternativa). Ing. Michal Dorda, Ph.D. 4
Test hypotézy o rovnosti dvou středních hodnot Dosazením do známého vztahu stanovíme pozorovanou hodnotu testové statistiky: T ( x x ) ( µ µ ) ( 0,5 3,75) 0 = = = & s s 7,76,3 + + n n 00 00,39. Počet stupňů volnosti testového rozdělení získáme rovněž dosazením do známého vzorce, výsledek musíme zaokrouhlit na celé číslo. Ing. Michal Dorda, Ph.D. 5
Test hypotézy o rovnosti dvou středních hodnot = + + n s n n s n n s n s v Ing. Michal Dorda, Ph.D. 6 77. 00,3 00 00 7,76 00 00,3 00 7,76 + + = n n n n
Test hypotézy o rovnosti dvou středních hodnot Pro kritickou hodnotu testu platí: x = t = t = TINV ( 0,;77 ) =,65, krit α ; v 0,95;77 kritický obor je tedy tvořen intervalem vypočítaná hodnota testové statistiky leží v kritickém oboru, proto na hladině významnosti α= 0,05 zamítáme nulovou hypotézu o rovnosti středních hodnot. ( ;,65, Ing. Michal Dorda, Ph.D. 7