2 ) 4, Φ 1 (1 0,005)

Podobné dokumenty
Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

= = 2368

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testy. Pavel Provinský. 19. listopadu 2013

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

4ST201 STATISTIKA CVIČENÍ Č. 7

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

PRAVDĚPODOBNOST A STATISTIKA

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

12. cvičení z PST. 20. prosince 2017

Testování statistických hypotéz

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testování hypotéz. 4. přednáška

Aproximace binomického rozdělení normálním

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

5 Parametrické testy hypotéz

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

5. T e s t o v á n í h y p o t é z

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Charakteristika datového souboru

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Testování statistických hypotéz. Obecný postup

Cvičení ze statistiky - 8. Filip Děchtěrenko

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

STATISTICKÉ HYPOTÉZY

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

12. prosince n pro n = n = 30 = S X

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testování statistických hypotéz

Normální (Gaussovo) rozdělení

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

6. T e s t o v á n í h y p o t é z

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Pravděpodobnost a aplikovaná statistika

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

You created this PDF from an application that is not licensed to print to novapdf printer (

Příklady na testy hypotéz o parametrech normálního rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Náhodné veličiny, náhodné chyby

NEPARAMETRICKÉ TESTY

Jana Vránová, 3. lékařská fakulta UK

Zápočtová práce STATISTIKA I

Normální (Gaussovo) rozdělení

Neparametrické metody

STATISTICKÉ TESTY VÝZNAMNOSTI

Stručný úvod do testování statistických hypotéz

Jednostranné intervaly spolehlivosti

Příklad 1. Řešení 1a. Řešení 1b. Řešení 1c ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 7

Ing. Michael Rost, Ph.D.

Vybraná rozdělení náhodné veličiny

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Testy statistických hypotéz

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Cvičení ze statistiky - 9. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

y = 0, ,19716x.

Testování hypotéz Biolog Statistik: Matematik: Informatik:

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Statistické metody uţívané při ověřování platnosti hypotéz

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

STATISTICKÉ ZJIŠŤOVÁNÍ

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

KGG/STG Statistika pro geografy

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

4EK211 Základy ekonometrie

Cvičení 9: Neparametrické úlohy o mediánech

Jednofaktorová analýza rozptylu

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Tomáš Karel LS 2012/2013

Poznámky k předmětu Aplikovaná statistika, 11. téma

Přednáška X. Testování hypotéz o kvantitativních proměnných

Pravděpodobnost a matematická statistika

Transkript:

Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje více než 2 % nekvalitních výrobků. Řešení 1 Rozsah výběrového souboru je n = 1000. Náhodná veličina X slouží ke sledování, je-li výrobek kvalitní či nekvalitní. Daný soubor má tedy alternativní rozdělení s parametrem p = 0,026 neboli Alt(0,026). Víme, že alternativní rozdělení je zvláštním případem binomického rozdělení. V tomto konkrétním případě jde tedy o rozdělení Bi(1000; 0,026). Podle zadání úlohy máme rozhodnout, zda lze s pravděpodobností 0,99 tvrdit, že zásilka obsahuje více než 2 % nekvalitních výrobků. Jde o úlohu, ve které budeme testovat statistickou hypotézu. Podle teorie testu o parametru p binomického rozdělení asymptotického formulujeme nulovou a alternativní hypotézu takto: H 0 : p = 0,02, H 1 : p > 0,02 Podle Moivrovy-Laplaceovy věty pro velké n platí X~N(1000 0,026; 1000 0,026 (1 0,026)) = N(26; 25,324) Lze tedy konstatovat, že při platnosti H 0 je náhodná veličina X 1000 0,020 X 20 X 20 U = = = 1000 0,020 (1 0,020) 16,6 4,427189 ~N(0,1) Podle teorie na hladině α = 0,01 zamítáme hypotézu H 0 : p = 0,02 a přikloníme se k alternativní hypotéze H 1 : p > 0,02, pokud U Φ 1 (1 α 2 ) Dosadíme do obou stran nerovnice (za X v U odsadíme jeho střední hodnotu) a dostaneme 26 20 4,427189 Φ 1 (1 0,01 2 ) 6 4,427189 Φ 1 (1 0,005) 1,355262 Φ 1 (0,995) V tabulce kvantilů normovaného normálního rozdělení vyhledáme příslušnou hodnotu. Dostaneme 1,355262 1,645 Je zřejmé, že tato nerovnice neplatí. Zjištěná hodnota testovacího kritéria je v oboru přijetí nulové hypotézy. Není tedy prokázána platnost alternativní hypotézy. Není tedy možné na dané hladině významnosti tvrdit, že v zásilce je více než 2 % nekvalitních výrobků. d b 1

Příklad 2 Speciální cvičení na paměťové počítání bylo testováno na 11 žácích. V následující tabulce jsou uvedeny časy v sekundách, za které vyřešili kontrolní úlohy před cvičením a po cvičení. Můžeme tvrdit, že tato cvičení zlepšují schopnost žáků při řešení úloh na hladině α = 0,05? Před cvičením 87, 61, 98, 90, 93, 74, 83, 72, 81, 75, 83 Po cvičení 50, 45, 79, 90, 88, 65, 52, 79, 84, 61, 52 Řešení 2 Stejnou úlohu jsme už řešili v MV2 11 příklad 2 metodou znaménkového testu. Tentokrát využijeme Wilcoxonův test. Nejprve vypočítáme rozdíly (před minus po) 37, 16, 19, 0, 5, 9, 29, 7, 3, 14, 31 Jednotlivým členům tohoto seznamu přiřadíme pořadí jejich absolutních hodnot. Dostaneme 11, 7, 8, 1, 3, 5, 9, 4, 2, 6, 10 Testujeme nulovou hypotézu (cvičení nemá vliv na schopnost řešení úloh) proti alternativní hypotéze (cvičení má vliv na schopnost řešení úloh). H 0 : x = 0, H 1 : x 0 Vypočteme součet pořadí kladných hodnot rozdílů a součet pořadí záporných hodnot rozdílů. S + = 1 + 3 + 5 + 6 + 7 + 8 + 9 + 10 + 11 = 60 S = 2 + 4 = 6 Podle teorie platí, že pokud min(s +, S ) < w n (α), pak můžeme zamítnout na hladině významnosti α nulovou hypotézu. Přitom kritickou hodnotu pravé strany nerovnice nalezneme v tabulce kritických hodnot párového Wilcoxonova testu. Zkusíme do podmínky testu dosadit. Dostaneme min(60, 6) < w 11 (0,05) Neboli 6 < 10 Protože poslední nerovnice je pravdivá, zamítáme nulovou hypotézu na hladině významnosti 0,05. Poznámka Všimněme si, že na hladině významnosti 0,01 bychom nulovou hypotézu nemohli zamítnout, protože w 11 (0,05) = 5. Stanovení hladiny významnosti tedy má zásadní vliv na výsledek úlohy. Poznámka Vrátíme-li se k řešení téže úlohy v MV2 11 Příklad 2, vidíme, že jsme dostali rozdílné výsledky obou testů. Znaménkový test nemá dostatek informací pro zamítnutí nulové hypotézy, protože využívá pouze počtu záporných hodnot, zatímco u Wilcoxonova testu využijeme navíc znalosti toho, že záporné hodnoty jsou poměrně malé. Říkáme, že Wilcoxonův test je silnější než znaménkový test. d b 2

Příklad 3 V průběhu deseti za sebou jdoucích dnů si pacient měřil 10 krát tep. Můžeme na základě těchto měření prohlásit, že medián naměřených hodnot je roven 75 tepům? Hodnoty jednotlivých měření byly 76, 76, 74, 77, 79, 81, 83, 67, 65, 90 Řešení 3a Úlohu budeme řešit pomocí jednovýběrového Wilcoxonova testu asymptotického na hladině významnosti 0,05. Chceme testovat hypotézu H 0 : x = 75 proti alternativní hypotéze H 1 : x 75. Pokud by medián hodnoty tepů byl 75, pak vypočteme následující hodnoty Y i = X i 75, kde X i jsou výsledky jednotlivých měření, takto seřazeny podle velikosti jejich absolutní hodnoty. 1, 1, 1, 2, 4, 6, 8, 8, 10, 15 Vypočteme součet pořadí kladných hodnot z tohoto seznamu. Dostaneme S = 1 + 2 + 4 + 5 + 6 + 7 + 10 = 35 Vypočteme statistiku, která má za platnosti hypotézy H 0 : x = 75 asymptoticky normované normální rozdělení. Takovou statistikou je (ihned dosadíme) n (n + 1) 10 (10 + 1) 10 11 110 S 35 35 35 U = 4 = 4 = 4 = 4 n (n + 1) (2n + 1) 10 (10 + 1) (2 10 + 1) 10 11 21 2310 24 24 24 24 35 27,5 = 96,25 = 7,5 9,810708 = 0,764471 Na hladině α zamítáme hypotézu H 0 : x = 75 a přikloníme se k alternativní hypotéze H 1 : x 75, pokud U Φ 1 (1 0,05 2 ) Hodnotu z pravé strany nalezneme v tabulce kvantilů normovaného normálního rozdělení N(0, 1). Dostaneme 0,764471 = 0,764471 1,960 Je zřejmé, že poslední nerovnost neplatí. Nemůžeme tedy zamítnout nulovou hypotézu. Řešení 3b Úlohu budeme řešit pomocí jednovýběrového Wilcoxonova testu asymptotického na hladině významnosti 0,05. Chceme testovat hypotézu H 0 : x = 75 proti alternativní hypotéze H 1 : x 75. Pokud by medián hodnoty tepů byl 75, pak vypočteme následující hodnoty Y i = X i 75, kde X i jsou výsledky jednotlivých měření, takto seřazeny podle velikosti jejich absolutní hodnoty. 1, 1, 1, 2, 4, 6, 8, 8, 10, 15 Vypočteme dále součet pořadí kladných hodnot a součet pořadí záporných hodnot z tohoto seznamu. S + = 35, S = 20 Podle teorie platí, že pokud min(s +, S ) < w n (α), pak můžeme zamítnout na hladině významnosti α nulovou hypotézu. Přitom kritickou hodnotu pravé strany nerovnice nalezneme v tabulce kritických hodnot párového Wilcoxonova testu. Zkusíme do podmínky testu dosadit. Dostaneme min(35, 20) < w 10 (0,05) Neboli 20 < 8 Protože poslední nerovnice je nepravdivá, nemůžeme na dané hladině nulovou hypotézu zamítnout. d b 3

Příklad 4 Označme p pravděpodobnost, že při hodu danou hrací kostkou padne šestka. Testujme nulovou hypotézu (šestka padne v jedné šestině případů) proti alternativní hypotéze (šestka nepadne v jedné šestině případů) H 0 : p = 1 6, H 1: p 1 6 Testování provedeme na hladině 0,05 základě pokusu, v němž ze sto dvaceti hodů padla šestka: a) dvacet devětkrát, b) dvacet osmkrát, c) devětkrát. Řešení 4 Označme X zaznamenaný počet šestek v sérii 120 hodů. Veličina X má rozdělení Bi(p, 120). Předpokládáme, že hypotéza H 0 je správná, neboli že p = 1. Uvědomme si, že jde o oboustranný 6 případ, neboli hladinu významnosti α = 0,05 musíme brát na obou stranách poloviční. Potom nalezneme pravděpodobnosti v bezprostředním okolí poloviční hladiny významnosti (řešíme oboustranný případ). To může být trochu pracnější. Nakonec ale nalezneme P(X 11) = 0,014, P(X 12) = 0,027 P(X 28) = 0,037, P(X 29) = 0,022 To znamená, že kritické hodnoty rozdělení Bi(1 6, 120), jimiž se veličina X řídí za předpokladu, že nulová hypotéza je správná jsou k 1 = k 1 ( α 2 ) = k 1 ( 0,05 2 ) = k 1(0,025) = 11, k 2 = k 2 ( α 2 ) = k 2 ( 0,05 2 ) = k 2(0,025) = 29 Rozhodnutí o tom, zda hypotézu zamítneme či nikoliv závisí na empiricky zaznamenaném počtu šestek v sérii. Konkrétně pro jednotlivé zadané případy: a) Šestka hozená ve 29 případech ze 120 je kritickou hodnotou zkoumaného rozdělení těsně za hladinou významnosti. Proto se v tomto případě nulová hypotéza zamítá na hladině významnosti α = 0,05. b) Šestka hozená ve 28 případech ze 120 leží v intervalu kritických hodnot. Proto se v tomto případě nulová hypotéza nezamítá α = 0,05. c) Šestka hozená v 9 případech ze 120 leží mimo interval kritických hodnot. Proto se v tomto případě nulová hypotéza zamítá α = 0,05. Poznámka Formulace hypotéza se zamítá na hladině významnosti α znamená, že skutečná hladina významnosti testu, tedy pravděpodobnost, s níž může dojít k zamítnutí správné hypotézy, je menší než α. Hladinu významnosti nemůžeme volit extrémně malou, protože jinak by příslušný test měl jen velmi malou sílu. Na druhou stranu případné zamítnutí nulové hypotézy má mnohem větší váhu, jestliže víme, že pravděpodobnost zamítnutí správné hypotézy je dokonce menší než 0,01 či 0,001. Z těchto důvodů může být zajímavé vědět, zda se nulová hypotéza bude zamítat i na hladině významnosti α = 0,01. V tomto případě jsou kritickými hodnotami 9 a 32. Tudíž v případě a) se nulová hypotéza nezamítá (přestože byla zamítnuta na hladině významnosti 0,05). V případě b) se nulová hypotéza nezamítá a v případě c) se zamítá. Pro hladinu významnosti 0,001 jsou kritickými hodnotami 7 a 35. d b 4

Příklad 5 Označme p pravděpodobnost, že při hodu danou hrací kostkou padne šestka. Existuje podezření, že tato kostka je záměrně vyrobena tak, aby šestka padala častěji než ostatní hodnoty. Testujme hypotézu, že tomu tak není, a to na základě pokusu, v němž ze sto dvaceti hodů padla šestka dvacet osmkrát. Řešení 5 Budeme testovat nulovou hypotézu (šestka padne právě v jedné šestině pokusů) proti jednostranné alternativě (šestka padne častěji než v jedné šestině pokusů). H 0 : p = 1 6, H 1: p > 1 6 Zvolíme hladinu významnosti α = 0,05. Hypotézu zamítneme tehdy, když zaznamenaný počet šestek X je příliš veliký (větší než kritická hodnota). Malý počet šestek nyní důvodem k zamítnutí hypotézy není. Kritická hodnota k 2 pro test naší hypotézy je nejmenší nezáporné celé číslo takové, že P (X k 2 p = 1 6 ) < 0,05 Po troše práce zjistíme, že k 2 = 28 Nulová hypotéza se tedy proti alternativní hypotéze zamítá na hladině významnosti 0,05. Poznámka Všimněme si, že v této jednostranné variantě byla nulová hypotéza zamítnuta, přestože v oboustranné variantě téže úlohy (vit předchozí příklad) by zamítnuta nebyla. Vidíme, že zúžením oboustranné alternativy na jednostrannou se zvýšila síla testu. d b 5

Příklad 6 Pěstujeme hrách s bílými a fialovými květy. Podle druhého Mendelova zákona je pravděpodobnost p, že rostlina vykvete fialově, rovna 3 4. Testujme platnost tohoto zákona na základě pokusu, v němž ze čtyřiceti náhodně vybraných rostlin jich fialově vykvetlo třicet pět. Řešení 6 Testujeme nulovou hypotézu (fialově vykvetou tři čtvrtiny rostlin) proti alternativní hypotéze (fialově pokvete jiné množství než tři čtvrtiny rostlin). H 0 : p = 3 4, H 1: p 3 4 Dle zadání je zřejmé, že náhodná veličina X, se kterou budeme pracovat, má za předpokladu platnosti nulové hypotézy rozdělení Bi(3 4, 120). Zvolíme hladinu významnosti α = 0,05. Jasně vidíme, že jde o oboustranná případ. Budeme tedy hledat kritické hodnoty k 1, k 2 pro test naší hypotézy jako největší (pro k 1 ) a nejmenší (pro k 2 ) nezáporná celá čísla taková, že P (X k 1 p = 3 4 ) < α 2, P (X k 2 p = 3 4 ) > 1 α 2 Kritické hodnoty budeme hledat pomocí výpočtu pravděpodobností dle daného rozdělení s jejich následným sčítáním. Přitom využijeme vzorec P(X = i) = ( n i ) pi (1 p) n i Výpočet můžeme velmi snadno realizovat třeba pomocí tabulky v MS Excel. n i p n_i p i (1-p) (n-i) P(x=i) P(x<=i) 40 0 0,75 1 1 8,27181E-25 8,27181E-25 8,27181E-25 40 1 0,75 40 0,75 3,30872E-24 9,92617E-23 1,00089E-22 40 2 0,75 780 0,5625 1,32349E-23 5,80681E-21 5,9069E-21 40 3 0,75 9880 0,421875 5,29396E-23 2,20659E-19 2,26566E-19 40 4 0,75 91390 0,316406 2,11758E-22 6,12328E-18 6,34984E-18 40 5 0,75 658008 0,237305 8,47033E-22 1,32263E-16 1,38613E-16 40 6 0,75 3838380 0,177979 3,38813E-21 2,3146E-15 2,45321E-15 40 7 0,75 18643560 0,133484 1,35525E-20 3,3727E-14 3,61802E-14 40 8 0,75 76904685 0,100113 5,42101E-20 4,17372E-13 4,53552E-13 40 9 0,75 2,73E+08 0,075085 2,1684E-19 4,45197E-12 4,90552E-12 40 10 0,75 8,48E+08 0,056314 8,67362E-19 4,14033E-11 4,63088E-11 40 11 0,75 2,31E+09 0,042235 3,46945E-18 3,38754E-10 3,85063E-10 40 12 0,75 5,59E+09 0,031676 1,38778E-17 2,45597E-09 2,84103E-09 40 13 0,75 1,2E+10 0,023757 5,55112E-17 1,58693E-08 1,87104E-08 40 14 0,75 2,32E+10 0,017818 2,22045E-16 9,18154E-08 1,10526E-07 40 15 0,75 4,02E+10 0,013363 8,88178E-16 4,7744E-07 5,87966E-07 40 16 0,75 6,29E+10 0,010023 3,55271E-15 2,238E-06 2,82597E-06 40 17 0,75 8,87E+10 0,007517 1,42109E-14 9,47859E-06 1,23046E-05 40 18 0,75 1,13E+11 0,005638 5,68434E-14 3,63346E-05 4,86392E-05 40 19 0,75 1,31E+11 0,004228 2,27374E-13 0,000126215 0,000174854 40 20 0,75 1,38E+11 0,003171 9,09495E-13 0,000397577 0,000572431 40 21 0,75 1,31E+11 0,002378 3,63798E-12 0,001135934 0,001708365 40 22 0,75 1,13E+11 0,001784 1,45519E-11 0,002943103 0,004651468 d b 6

n i p n_i p i (1-p) (n-i) P(x=i) P(x<=i) 40 23 0,75 8,87E+10 0,001338 5,82077E-11 0,006909893 0,011561361 40 24 0,75 6,29E+10 0,001003 2,32831E-10 0,014683523 0,026244884 40 25 0,75 4,02E+10 0,000753 9,31323E-10 0,028192364 0,054437248 40 26 0,75 2,32E+10 0,000564 3,72529E-09 0,048794476 0,103231724 40 27 0,75 1,2E+10 0,000423 1,49012E-08 0,075902518 0,179134242 40 28 0,75 5,59E+09 0,000317 5,96046E-08 0,105721365 0,284855607 40 29 0,75 2,31E+09 0,000238 2,38419E-07 0,131240315 0,416095922 40 30 0,75 8,48E+08 0,000179 9,53674E-07 0,144364346 0,560460268 40 31 0,75 2,73E+08 0,000134 3,8147E-06 0,139707432 0,7001677 40 32 0,75 76904685 0,0001 1,52588E-05 0,117878146 0,818045846 40 33 0,75 18643560 7,53E-05 6,10352E-05 0,085729561 0,903775407 40 34 0,75 3838380 5,65E-05 0,000244141 0,052950611 0,956726017 40 35 0,75 658008 4,24E-05 0,000976563 0,027231743 0,98395776 40 36 0,75 91390 3,18E-05 0,00390625 0,011346559 0,99530432 40 37 0,75 9880 2,38E-05 0,015625 0,003679965 0,998984285 40 38 0,75 780 1,79E-05 0,0625 0,000871571 0,999855856 40 39 0,75 40 1,34E-05 0,25 0,000134088 0,999989943 40 40 0,75 1 1,01E-05 1 1,00566E-05 1 Řádky s kritickými hodnotami jsou podbarveny oranžově. Nalezli jsme tedy kritické hodnoty k 1 = 23, k 2 = 35 Fialově vykvetlo 35 rostlin. To je právě kritická hodnota ležící již mimo stanovenou hladinu významnosti. Hypotéza se na hladině významnosti α = 0,05 proto zamítá. d b 7

Příklad 7 Realizace náhodného výběru byla roztříděna následovně: Třída n i Třída n i 1 1,0 1,5 1 4 2,5 3,0 6 2 1,5 2,0 4 5 3,0 3,5 6 3 2,0 2,5 5 6 3,5 4,0 18 Ověřte, zda realizace pochází z rozdělení s hustotou f(x) = 2 (x 1) pro x 1, 4 9 Riziko přípustného omylu je maximálně 5%. Řešení 7 Budeme na hladině významnosti α = 0,05 testovat hypotézu H 0 X~f(x) proti hypotéze H X f(x) Použijeme χ 2 -test dobré shody. Sestavíme tabulku Třída n j p j np j (n j np j ) 2 np j 1 1,0-1,5 1 0,027778 1,111111 0,011111 2 1,5-2,0 4 0,083333 3,333333 0,133333 3 2,0-2,5 5 0,138889 5,555556 0,055556 4 2,5-3,0 6 0,194444 7,777778 0,406349 5 3,0-3,5 6 0,25 10 1,6 6 3,5-4,0 18 0,305556 12,22222 2,731313 Součet x 40 1 40 4,937662 První sloupec je pro identifikaci jednotlivých tříd. Druhý sloupec uvádí hozené hodnoty v příslušné třídě. Třetí sloupec je pro zadání četnosti výskytu výsledku v realizaci náhodného pokusu. Čtvrtý sloupec je teoretická četnost dle testovaného rozdělení (v tomto případě je třeba je vypočítat). Pátý sloupec je součinem teoretické četnosti s celkovým počtem realizovaných pokusů. Poslední šestý sloupec je hodnotou Pearsonovy statistiky pro příslušnou třídu. Poslední řádek je určen pro součty (kontrolní a výsledné). Hodnoty ve čtvrtém sloupci jsme vypočítali integrací hustoty takto (d j je dolní hranice j-té třídy): d j +0,5 p j = 2 d 2 j +0,5 (x 1) dx = 9 9 [x2 2 x] = 29 [((d j + 0,5) 2 (d 2 j + 0,5)) ( d j 2 2 d j)] d d j j = 2 9 [d j 2 + d j + 0,25 d 2 j 0,5 d j 2 2 + d j] = 2 9 [d j + 0,25 1 ] = d j 0,75 2 9 Dosazením dolních hranic do posledního výrazu jsme vypočítali potřebné pravděpodobnosti. Hodnota vpravo dole je realizací t testové statistiky 6 T = (n j np j ) 2 Konkrétně v našem případě máme j=1 d b 8 np j t = 4,937662

Kritický obor W pro Pearsonův test dobré shody na hladině významnosti α = 0,05 je W = {t; t > χ 2 (k m 1; 1 α)} Zde k = 6 je počet tříd, m = 0 je počet neznámých parametrů. Potřebnou hodnotu vyhledáme v tabulkách. W = {t; t > χ 2 (6 0 1; 1 0,05)} = {t; t > χ 2 (5; 0,95)} = {t; t > 11,07} Protože t W, nezamítáme na hladině významnosti 0,05 hypotézu H 0 X~f(x). Realizace pochází z rozdělení s uvedenou hustotou. Riziko omylu je 5%. d b 9

Příklad 8 Realizace náhodného výběru byla roztříděna následovně: Třída n i Třída n i 1 0,0 0,1 0 6 0,5 0,6 2 2 0,1 0,2 0 7 0,6 0,7 6 3 0,2 0,3 0 8 0,7 0,8 35 4 0,3 0,4 1 9 0,8 0,9 60 5 0,4 0,5 1 10 0,9 1,0 95 Ověřte na hladině významnosti 0,05, zda realizace pochází z rozdělení s hustotou f(x) = ax 2 pro x 0, 1 Řešení 8 Budeme na hladině významnosti α = 0,05 testovat hypotézu H 0 X~f(x) proti hypotéze H X f(x) Použijeme χ 2 -test dobré shody. Sestavíme tabulku Třída n j p j np j (n j np j ) 2 np j 1 0,0 0,1 0 0,001 0,2 0,2 2 0,1 0,2 0 0,007 1,4 1,4 3 0,2 0,3 0 0,019 3,8 3,8 4 0,3 0,4 1 0,037 7,4 5,535135 5 0,4 0,5 1 0,061 12,2 10,28197 6 0,5 0,6 2 0,091 18,2 14,41978 7 0,6 0,7 6 0,127 25,4 14,81732 8 0,7 0,8 35 0,169 33,8 0,042604 9 0,8 0,9 60 0,217 43,4 6,349309 10 0,9 1,0 95 0,271 54,2 30,71292 Součet x 200 1 200 87,55903 První sloupec je pro identifikaci jednotlivých tříd. Druhý sloupec uvádí hozené hodnoty v příslušné třídě. Třetí sloupec je pro zadání četnosti výskytu výsledku v realizaci náhodného pokusu. Čtvrtý sloupec je teoretická četnost dle testovaného rozdělení (v tomto případě je třeba je vypočítat). Pátý sloupec je součinem teoretické četnosti s celkovým počtem realizovaných pokusů. Poslední šestý sloupec je hodnotou Pearsonovy statistiky pro příslušnou třídu. Poslední řádek je určen pro součty (kontrolní a výsledné). Abychom mohli vypočítat teoretické hodnoty pravděpodobnosti do čtvrtého sloupce, musíme nejprve určit hodnotu konstanty a v předpisu hustoty. Musí platit: 1 1 = ax 2 dx = [a x3 1 3 ] = a [ x3 1 3 ] = a [ 13 3 03 3 ] = a [1 3 0 3 ] = a [1 3 0] = a 1 3 = a 3 0 0 0 Odtud a = 3 Nyní víme, že daná hustota má tvar f(x) = 3x 2 pro x 0, 1 Hodnoty ve čtvrtém sloupci jsme vypočítali integrací hustoty takto (d j je dolní hranice j-té třídy): d b 10

d j +0,1 x 3 p j = 3x 2 dx = [3 3 ] d d j j d j +0,1 = 0,3d j 2 + 0,03d j + 0,001 = [x 3 d ] j +0,1 dj = 3 dj + 0,3d 2 3 j + 0,03d j + 0,0,01 d j Dosazením dolních hranic do posledního výrazu jsme vypočítali potřebné pravděpodobnosti. Hodnota vpravo dole je realizací t testové statistiky 6 T = (n j np j ) 2 j=1 Konkrétně v našem případě máme t = 87,55903 Kritický obor W pro Pearsonův test dobré shody na hladině významnosti α = 0,05 je W = {t; t > χ 2 (k m 1; 1 α)} Zde k = 10 je počet tříd, m = 0 je počet neznámých parametrů. Potřebnou hodnotu vyhledáme v tabulkách. W = {t; t > χ 2 (10 0 1; 1 0,05)} = {t; t > χ 2 (9; 0,95)} = {t; t > 16,92} Protože t W, zamítáme na hladině významnosti 0,05 hypotézu H 0 X~f(x). Realizace nepochází z rozdělení s uvedenou hustotou. Riziko omylu je 5%. np j d b 11