19. Testy dobré shody V mnoha případech jsme nucen z daných údajů zjšťovat například typ rozdělení, nezávslost údajů, homogentu dat. Takovéto možnost nám nabízí metoda, která se jmenuje testy dobré shody. Ve své podstatě jde o rozšíření testů bnomckého rozdělení na tzv. multnomcké rozdělení. Ukazuje se dále, že jstý specální poměr vytvářený v průběhu tohoto testu je asymptotcky roven rozdělení χ. Nejdříve uvedeme defnc multnomckého rozdělení. Defnce 19.1 Nechť A,, 1 Ak jsou neslučtelné jevy, z nchž v průběhu náhodného pokusu musí nastat právě jeden. Nechť PA ( ) = p>0, pro všechna. Předpokládejme, že náhodný pokus opakujeme celkem n krát, označme dále X výskytů jevu A v těchto n opakovaných náhodných pokusech, potom n! x1 x P( X1 = x1,, X ). 1.. k k = xk = p pk (19.1) x1! xk! pro nezáporná celá čísla x 1,, x k, jejchž součet je roven n. V ostatních případech je pravděpodobnost v (19.1) rovna nule. Náhodná velčna daná výše uvedeným rozdělením se nazývá multnomcká. Poznámka 19. Z předchozí defnce vyplývá, že pokud se budeme zabývat jen případem jednoho náhodného jevu A a jedné náhodné velčny X ( ostatní náhodné jevy shrneme do náhodného jevu rovnajícího se jejch sjednocení ), dostaneme klascký případ bnomckého rozdělení B(n,p ). Pro další vyšetřování je tato poznámka velm důležtá, pomocí ní můžeme totž sjstt charakterstky jednotlvých náhodných velčn X. Podrobnost jsou uvedeny v následujícím tvrzení. Věta 19.3 V multnomckém rozdělení platí E ( X ) = n. p, VAR ( X ) = n. p. ( 1 p) pro = 1,, k (19.) a cov X, X = n. p. p pro j (19.3) ( ) j j Důkaz: Uveden například v [1]. Všmněme s, že náhodné hodnoty X nejsou podle (19.3) nezávslé ( proč? ). Věta 19.4 Nechť platí předchozí označení, potom následující náhodná velčna k ( ) X np. χ = (19.4) = 1 np. je asymptotcky χk 1 rozdělení. Důkaz: Uveden opět v [1].
Důležtá vlastnost náhodné velčny uvedené ve vztahu (19.4) je to, že lmtně rovna rozdělení χk 1. Velčnám X říkáme velm často emprcké četnost a hodnotám n.p teoretcké četnost. Vzorec (19.4) je možno upravt ještě na jný, pro výpočty užtečný tvar k 1 X. χ = n (19.5) n = 1 p V tomto vzorc nezjstíme příspěvky jednotlvých členů do celkového součtu!. Pomocí výše uvedených vzorců můžeme testovat hypotézu H 0, že skutečné hodnoty pravděpodobností multnomckého rozdělení jsou rovny právě číslům p 1,,p k, hypotéza H 1 je negací nulové hypotézy. Jestlže je součet χ větší nebo roven χ k 1 ( α ), zamítáme na hladně významnost hypotézu H 0. Způsob řešení s ukážeme na několka příkladech. Př řešení je nutno mít na zřetel to, že tento test je asymptotcký, musí tedy být n dostatečně velké. Obecně je uváděno, že np>5., pro každé = 1,, k. Příklad 19.5 V programu Excel jsme pomocí generátoru náhodných čísel vygeneroval 100 náhodných čísel. Ověřte, zda jsou číslce v těchto číslech použty se stejnou pravděpodobností. Dále je uvedena tabulka četností jednotlvých číslc: 0 1 3 4 5 6 7 8 9 75 87 90 10 97 86 113 89 95 99 Nejprve s zjstíme celkový číslc, ten je roven 933. Tedy teoretcká četnost pro jednotlvou číslc je rovna 933 /10 = 93,3. Zjstíme nyní jednotlvé hodnoty sčítanců v (19.4), 0 1 3 4 5 6 7 8 9 75 87 90 10 97 86 113 89 95 99 3,589389068 0,454 0,1167 0,8113 0,15 0,571 4,16 0,198 0,03098 0,348 Odtud je vdět, že nejvíce přspívá do součtu cfra 0, nejméně cfra 8. Zjstíme nyní hodnotu χ = 10,3976. Krtcká hodnota pro 10 1 = 9 stupňů volnost je rovna 16,91896. Odtud vyplývá, že nemůžeme zamítnout hypotézu o stejném zastoupení cfer v náhodných číslech. Dále jsou zobrazeny teoretcké a emprcké četnost pro tento případ: 10 110 100 90 80 70 60 0 1 3 4 5 6 7 8 9
Příklad 19.6 Ověřte pomocí metody c testu na hladně významnost 0,05, zda údaje o výšce ve výběru 34 studentů je možno pokládat za výběr z normálního rozdělení N( m, s ), kde m = 178 cm a s = 6 cm. rozsah třídy t j-1 t j 167,5 17,5 1 17,5 177,5 6 177,5 18,5 11 18,5 187,5 9 187,5 19,5 4 19,5 197,5 3 Nulová hypotéza H 0 je stanovena tak, že výška studentů je typu N(178;36). Nejdříve ztotožníme hodnoty v jednotlvých třídách se středy ntervalů tříd ( třídy jsou uzavřené!). Pravděpodobnost, že výška náhodného studenta bude v j tém ntervalu vypočteme pomocí tj µ tj 1 µ vztahu Φ Φ, kde Φ je dstrbuční funkce N(0;1) a µ, σ jsou parametry σ σ t j 1 µ vyšetřovaného rozdělení. V prvním ntervalu položíme Φ = 0 σ a v posledním t j µ ntervalu bude Φ = 1. Tím získáme hodnoty teoretckých pravděpodobností, ty pak σ násobíme celkovým počtem studentů a získáme teoretcké četnost. Výsledek je uveden v následující tabulce: rozsah třídy normalzace hodnota dstrbuční funkce N(0;1) teoretcká pravděpodobnost teoretcká četnost úprava tříd 167,5 17,5 1-0,916666667 0 0,179659 0,17965864 6,10839383 6,10839383 17,5 177,5 6-0,083333333 0,179659 0,466793 0,8713454 9,7657435 9,7657435 177,5 18,5 11 0,75 0,466793 0,773373 0,306579539 10,437043 10,437043 18,5 187,5 9 1,583333333 0,773373 0,94337 0,1699545 5,77845376 7,7053751 187,5 19,5 4,416666667 0,94337 0,99168 0,048841084 1,66059685 19,5 197,5 3 3,5 0,99168 1 0,007831673 0,66769 m= 178 cm = 34 studentů s = 36 cm Z tabulky je zřejmé, že musíme sloučt poslední tř třídy, protože teoretcká četnost těchto tříd je menší než 5 prvků! Nyní jž máme k dspozc hodnoty, které nám umožní spočítat hodnotu c - kvadrát : rozsah třídy úprava tříd t j-1 t j ch - kvadrát 167,5 17,5 1 6,10839385 4,71098 17,5 177,5 6 9,7657435 1,450169 177,5 18,5 11 10,4370431 0,031861679 18,5 187,5 9 7,70537511 8,99093748 187,5 19,5 4 19,5 197,5 3 součet 34 34 14,6831847
Počítáme samozřejmě na hladně významnost a = 0,05, stupňů volnost je tedy roven n = 4 1 = 3. Krtcká hodnota je dána c 0,95;3 = 7,8147. Je zřejmé, že hodnota testové statstky vyšla v krtckém oboru, proto zamítáme nulovou hypotézu. Pokud bychom chtěl zjstt p value tohoto testu získáme číslo 0,00109, které také velm slně podporuje myšlenku zamítnutí nulové hypotézy. Příklad 19.7 Předpokládejme, že máme klasckou hrací kostku, s níž provedeme celkem 300 hodů s četnostm výsledků uvedeným v následující tabulce: 1 3 4 5 6 p 40 55 51 49 46 59 Zjstěte, zda daná kostka je homogenní? Stanovíme nejprve nulovou hypotézu H 0 : kostka je homogenní a k ní alternatvní H 1 : kostka není homogenní. Za předpokladu platnost H 0 jsou očekávané četnost jednotlvých hodů stejné a rovné 50. Zjstíme dále hodnotu ch kvadrát: f očekávané četnost (naměřené četnost - očekávané četnost) / očekávané četnost 1 40 50 55 50 0,5 3 51 50 0,0 4 49 50 0,0 5 46 50 0,3 6 59 50 1,6 χ =4,48 Vypočítanou hodnotu nyní porovnáme s krtckou hodnotou rozdělení ch kvadrát na hladně významnost a = 0,05 s n=6-1 = 5 stupn volnost. Tato hodnota je rovna 11,07. Protože výsledek testovací statstky je v oboru přjetí, nemůžeme hypotézu H 0 na dané hladně zamítnout. Dokonce krajní mez po kterou bychom přjal hypotézu H 0 je v tomto případě rovna 0,44 ( p value ). Z výše uvedených výpočtů vyplývá, že pokud máme k dspozc výní prostředek, který vypočítává p value, je možno pomocí nch celkem jednoduše ověřt přjetí č zamítnutí nulové hypotézy. Velm častý je případ, kdy pravděpodobnost p,, 1 pk závsí na určtém množství neznámých parametrů a,, 1 al ( jde samozřejmě o parametry neznámé náhodné velčny určtého typu ). Potom je zapotřebí tyto parametry z dat odhadnout. Někdy se za jednoduché aproxmace těchto neznámých parametrů berou jejch bodové odhady, přesným určením postupu, jak získat skutečné hodnoty se zabývá autor v [1]. Pro naše účely bude tento postup vyhovovat. V případě, že nebudeme základní parametry dané populace znát odhadneme je tedy pro naše účely pomocí bodových odhadů těchto parametrů ( s optmálním vlastnostm ), tyto bodové odhady potom použjeme k tomu, abychom získal teoretcké četnost jednotlvých tříd, které v průběhu výpočtu používáme.
Příklad 19.8 Vyšetřoval jsme chlapců v rodnách s 5 dětm. Výsledky jsou uvedené v následující tabulce: dětm Počet chlapců v rodnách s 5 četnost rodn 0 3 1 10 3 31 4 14 5 4 Celkem rodn 84 Máme rozhodnout, zda tato data podporují myšlenku o tom, že chlapců je rozdělen v rodnách pomocí bnomckého rozdělení. Protože nemáme stanoven parametr p bnomckého rozdělení, provedeme 3,65 nejdříve jeho odhad : X = =, 65, n. p =,65 p = = 0, 53. Tím jsme určl druhý 84 5 nutný parametr bnomckého rozdělení, nyní můžeme zjstt hodnoty očekávané: očekávané po korekc skutečné po c - p četnost tříd četnost korekc kvadrát 0 0,0935 1,96498059 3 1 0,1931 10,8616991 1,78867 10 13 0,00349 0,91639 4,49765979 4,49766 0,54649 3 0,38869 7,650061 7,650 31 31 0,4135 4 0,18546 15,57580949 19,08865 14 18 0,06087 5 0,0418 3,5184141 4 84 84 84 84 0,73553 Hladnu významnost máme opět stanovenou na 5%, nyní určíme stupňů volnost n=6 1 = 3 ( stupňů volnost se snížl o parametrů, které odhaduj a o třídy, které jsme sloučly ). Budeme tedy hledat krtcké hodnoty chí kvadrát se 3 stupn volnost. Tato hodnota je rovna 7,8147. Protože je naše hodnota hluboko pod krtckou hodnotou, hypotézu H 0 nemůžeme zamítnout. Příklad 19.9 V následující tabulce je uveden rozdělení počtu bodových vad zjštěných př zkoumání 0 vdeopásků. Rozhodněte, zda je možno považovat vad na vdeopásku za náhodnou velčnu typu Possonovo rozdělení. vad 0 1 3 4 5 6 7 pásků 3 4 4 1
Nejdříve musíme z daných dat odhadnou parametr lambda střední hodnotu 68 Possonova rozdělení. Tato střední hodnota je tedy rovna λ = X = = 3, 4. Z této hodnoty 0 jž můžeme počítat teoretcké četnost. vad pásků teoretcké pravděpodobnost teoretcké četnost po sloučení praktcké po sloučení ch - kvadrát 0 0,0333737 0,667465399 1 3 0,113469118,6938357 0,198975 3,857950007 6,794797764 7 0,006197 3 4 0,18617167 4,3734334 4 0,1858459 3,71649184 8,08883518 6 0,539414 5 0,1636073,571445 5,116367054 7 0,693475 6 4 0,071604409 1,43088189 7 1 0,0578531 1,157064413 lamda= 3,4 celkem 1,39086 Jak je vdět, vzhledem k teoretckým četnostem je nutno sloučt třídy do celkem 3 nových tříd. Počet stupňů volnost je tedy roven n = 3 1 1 = 1 ( navíc odečítáme 1 za odhadnutý parametr rozdělení ). Budeme tedy hledat krtckou hodnotu pro jeden stupeň volnost a a = 0,05. Tato krtcká hodnota je rovna 3,8415, p value = 0,65496. Tato hodnota je velm vysoká, podporuje tedy nezamítnutí hypotézy H 0 o tom, že daná data pochází z Possonova rozdělení. Příklad 19.10 Ověřte na hladně významnost a = 5%, zda můžeme považovat následující data za normálně rozdělená: naměřená třída četnost pod 9 0 9-11 1 1-14 3 15-17 10 18-0 18 1-3 7 4-6 17 7-9 5 nad 9 0 Protože jde o data třídní, musíme nejdříve nahradt otevřené třídy dolním č horním odhady. Tedy dolní odhad bude roven 7,5 a horní odhad bude roven 30. naměřená středy normalzované pravděpodobnost pravděpodobnost třída četnost tříd středy středů tříd tříd pod 9 0 7,5-3,544560185 0,000196675 0,000196675 9-11 1 10 -,893518519 0,00190486 0,00170815 1-14 3 13 -,1168519 0,017331651 0,0154685 15-17 10 16-1,331018519 0,09159151 0,07459871 18-0 18 19-0,549768519 0,9139045 0,19964754 1-3 7 0,31481481 0,5915957 0,3009057
4-6 17 5 1,01731481 0,844405771 0,5876199 7-9 5 8 1,793981481 0,96359199 0,11918619 nad 9 0 30,314814815 0,989688491 0,06096501 Dále : naměřená teoretcké teoretcké četnost skutečné četnost třída četnost četnost upravené upravené ch pod 9 0 0,01593071 9-11 1 0,13836017 1-14 3 1,495781 15-17 10 6,01504954 7,4189136 14 5,837877031 18-0 18 16,1714494 16,17144945 18 0,0675973 1-3 7 4,33537 4,335366 7 0,94508101 4-6 17 0,48971 0,48971 17 0,595664 7-9 5 9,65408375 11,76790035 5 3,8933503 nad 9 0,1138166 hodnota test. statstky 10,837057 odhad stř. hodnoty 1,1111111 odhad směr. odchylky 3,84 kvantl ch 95% 5,99 4 stupně volnost Z výpočtů vedených výše je zřejmé, že na hladně významnost 5% hypotézu o tom, že data pochází z normálního rozdělení musíme zamítnout, protože ale výsledek není přílš průkazný, použl bychom ještě jný test např. Kolmogor Smrnovův test.