Testy. Pavel Provinský. 19. listopadu 2013

Podobné dokumenty
5 Parametrické testy hypotéz

12. cvičení z PST. 20. prosince 2017

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování statistických hypotéz

4ST201 STATISTIKA CVIČENÍ Č. 7

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz

STATISTICKÉ HYPOTÉZY

Aproximace binomického rozdělení normálním

Pravděpodobnost a matematická statistika

2 ) 4, Φ 1 (1 0,005)

Statistika, Biostatistika pro kombinované studium. Jan Kracík

= = 2368

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Obecný postup

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Ing. Michael Rost, Ph.D.

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Pravděpodobnost a aplikovaná statistika

Charakteristika datového souboru

15. T e s t o v á n í h y p o t é z

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Příklady na testy hypotéz o parametrech normálního rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Stručný úvod do testování statistických hypotéz

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

TECHNICKÁ UNIVERZITA V LIBERCI

Cvičení ze statistiky - 8. Filip Děchtěrenko

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

4EK211 Základy ekonometrie

Jednostranné intervaly spolehlivosti

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

5. T e s t o v á n í h y p o t é z

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Normální (Gaussovo) rozdělení

Testování statistických hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testy statistických hypotéz

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

ADDS cviceni. Pavlina Kuranova

15. T e s t o v á n í h y p o t é z

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Zápočtová práce STATISTIKA I

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Náhodné veličiny, náhodné chyby

Testování hypotéz. 4. přednáška

STATISTICKÉ ZJIŠŤOVÁNÍ

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

INDUKTIVNÍ STATISTIKA

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Normální (Gaussovo) rozdělení

12. prosince n pro n = n = 30 = S X

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Pravděpodobnost, náhoda, kostky

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ČVUT FAKULTA DOPRAVNÍ

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Vzorová prezentace do předmětu Statistika

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Jednofaktorová analýza rozptylu

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Cvičení ze statistiky - 9. Filip Děchtěrenko

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Tomáš Karel LS 2012/2013

STATISTICKÉ TESTY VÝZNAMNOSTI

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

ÚVOD DO TESTOVÁNÍ HYPOTÉZ. Martina Litschmannová

Úvod do analýzy rozptylu

KGG/STG Statistika pro geografy

Opakování: Nominální proměnná více hodnotová odpověď.

4EK211 Základy ekonometrie

Transkript:

Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování intervalového odhadu pro střední hodnotu (známý rozptyl) dospějeme k tomu, že jakási statistika z má nomované normální rozdělení: n z = (x µ) N (0, 1). σ Pokud chceme např. oboustranný 95% - intervalový odhad, získáváme odtud ihned nerovnici: kde z 0,025 a z 0,975 jsou příslušné kvantily. z 0,025 < (x µ) n σ < z 0,975, Pokud zůstaneme na této úrovni a spočteme výraz uprostřed a testujeme, jestli opravdu padne mezi příslušné kvantily nebo ne, provedeme test. Pokud z nerovnice vyjádříme nějakou veličinu, např. µ, provedeme intervalový odhad: x + σ n z 0,025 < µ < x + σ n z 0,975. respektive: µ x ± σ n z 0,975. Pojmy Nulová hypotéza Alternativní hypotéza Testová statistika a její rozdělení Hladina významnosti Obor přijetí Kritický obor p-hodnota 1

pravostranný, levostranný a oboustranný test =pravostranný, levostranný a oboustranný obor přijetí Rozdělení testové statistiky pro oboustranný test s hladinou významnosti 5%. Rozdělení statistiky je v tomto případě normální N (0, 1): Rozdělení testové statistiky pro pravostranný test s hladinou významnosti 1%. Rozdělení statistiky je v tomto případě Chí-kvadrát se 4 stupni volnosti Chi 2 (4): 2

Pokud nulovou hypotézu zamítneme, pak p-hodnota znamená pravděpodobnost, že jsme se v tomto zmýlili a nulová hypotéza přesto platí. Zakreslení p-hodnoty pro statistiku, která padla do oboru přijetí. p-hodnota je větší než hladina významnosti (p > α), nulovou hypotézu tedy nezamítáme: Zakreslení p-hodnoty pro statistiku, která padla do kritického oboru. p-hodnota je menší než hladina významnosti (p < α), nulovou hypotézu tedy zamítáme: 3

Některé testy Test střední hodnoty µ, znám rozptyl σ 2 z = (x µ) z N (0, 1). n σ. Směrování testu dle alternativní hypotézy, možné jsou všechny tři varianty. H 0 : Střední hodnota je µ = 5. H A : µ 5...oboustranný test. Známe rozptyl veličiny X i : σ 2 =. Volíme α = 5%. Data: x = 7, n = 36. z = (7 5) 36 = 2 0, 6 = 1, 2 10 z 1 α 2 = z 0,975 = 1, 96 z α 2 = z 0,025 = 1, 96 Statistika padne do oboru přijetí, hypotézu H 0 tedy na hladině významnosti 5% nezamítáme. 4

Test střední hodnoty µ, neznám rozptyl σ 2 t = (x µ) n s. Studentovo rozdělení s n 1stupni volnosti. t St (n 1). Směrování testu dle alternativní hypotézy, možné jsou všechny tři varianty. H 0 : Střední hodnota je µ 5. H A : µ > 5...pravostranný test. Volíme α = 5%. Data: x = 6, 07, s = 2, 56, n = 29. t = (6, 07 5) 29 = 2, 25 2,56 t 1 α (n 1) = t 0,95 (28) = 1, 70 Statistika padne do kritického oboru, hypotézu H 0 tedy na hladině významnosti 5% zamítáme. Varianta s výpočtem p-hodnoty (např. v Matlabu): p = 0, 0164 p < α, hypotézu H 0 tedy na hladině významnosti 5% zamítáme. 5

Test podílu n z = (p π) p (1 p). (Poznámka: Lze najít ještě lepší statistiku, která je ale složitější.) z N (0, 1). Směrování testu dle alternativní hypotézy, možné jsou všechny tři varianty. Je herní kostka poctivá, když jsme při 20 hodech hodili šestku 10-krát, nebo padá šestka častěji? H 0 : Podíl šestky v základním souboru je π 1 6. H A : π > 1 6...pravostranný test. Volíme α = 1%. Data: p = 1 2, n = 20. z = ( 1 2 ) 1 6 20 1 z 1 α = z 0,99 = 2, 33 2 (1 1 2) = 2, 98 Statistika padne do kritického oboru, hypotézu H 0 tedy na hladině významnosti 1% zamítáme. (Pravděpodobnost, že se mýlíme, je tedy menší než 1%.) 6

Test rozptylu χ 2 = (n 1) s2 σ 2 χ 2 Chí 2 (n 1). Směrování testu dle alternativní hypotézy, možné jsou všechny tři varianty. Nejčastější je pravostranný test, tedy zda není rozptyl příliš velký. Může být rozptyl základního souboru nejvýše 50, když jsme zjistili na vzorku 20 hodnot výběrový rozptyl s 2 = 150? H 0 : Rozptyl základního souboru je σ 2 50. H A : σ 2 > 50...pravostranný test. Volíme α = 1%. Data: s 2 = 150, n = 20. χ 2 = (20 1) 150 50 = 57 χ 2 1 α = χ 2 0,99 = 36, 2 Statistika padne do kritického oboru, hypotézu H 0 tedy na hladině významnosti 1% zamítáme, a to ve prospěch alternativní hypotézy, tedy že σ 2 > 50. 7

χ 2 test nezávislosti S = (O i E i ) 2 E i S Chí 2 ((m 1) (n 1)). Test je pravostranný. Nulová hypotéza: Veličiny jsou nezávislé. Závisí barva trička na pohlaví? H 0 : Barva trička a pohlaví jsou nezávislé veličiny. Volíme hladinu významnosti α = 5%. Data: bílé červené modré jiné muž 15 6 12 22...O i žena 8 11 6 20 Spočteme E i a pak statistiku. Nejprve určíme marginální četnosti: bílé červené modré jiné muž 15 6 12 22 žena 8 11 6 20 23 17 18 42 Určíme marginální pravděpodobnosti a pravděpodobnosti za předpokladu nezávislosti: muž 23 žena 23 bílé červené modré jiné 23 17 17 17 18 18 18 Určíme četnosti za předpokladu nezávislosti: 42 42 42 1 bílé červené modré jiné muž 23 = 12, 65 9,35 9,9 23,1 žena 23 = 10, 35 7,65 8,1 18,9...E i S = (O i E i) 2 E i = 4, 74 χ 2 0,95 ((n 1) (m 1)) = χ 2 0,95 ((4 1) (2 1)) = χ 2 0,95 (3) = 7, 81 Statistika padla do oboru přijetí, hypotézu H 0 tedy nezamítáme. Varianta s p-hodnotou (spočtenou např. v Matlabu): p = 0, 19 p > α, hypotézu H 0 tedy nezamítáme. Tj. na dané hladině významnosti jsme neprokázali závislost. Pozorované odchylky mohou být pouze náhodné. 8

χ 2 test dobré shody S = (O i E i ) 2 E i S Chí 2 (n 1). Test je pravostranný. Nulová hypotéza: Veličina má takové a takové rozdělení. H 0 : Počet cestujících přepravených v jednotlivé dni v týdnu má rovnoměrné rozdělení. Volíme hladinu významnosti α = 5%. Data: Počet přepravených cestujících: Po Út+St Čt+Pá So Ne 615 1281 1121 615 630...O i 5%. Spočteme statistiku. Nejprve určíme ideální četnosti za předpokladu rovnoměrného rozdělení: Celkový počet cestujících: 4262. Po Út+St Čt+Pá So Ne 1 7 4262 = 609 2 7 4262 = 1218 2 7 4262 = 1218 1 7 4262 = 609 1 7 4262 = 609...E i S = (O i E i) 2 E i = 11, 83 χ 2 0,95 (n 1) = χ 2 0,95 (5 1) = χ 2 0,95 (4) = 9, 49 Statistika padla do kritického oboru, hypotézu H 0 tedy na hladině významnosti 5% zamítáme. Tj. Počet cestujících není rovnoměrný a pravděpodobnost, že se v tomto mýlíme, je menší než Varianta s p-hodnotou (spočtenou např. v Matlabu): p = 0, 0187 p < α, hypotézu H 0 tedy zamítáme. Tj. Počet cestujících není rovnoměrný a pravděpodobnost, že se v tomto mýlíme, je 1,87%. 9

Test mediánu = znaménkový test z = 2b n n Poznámka: Parametr b je počet hodnot větších než testovaný medián. z N (0, 1). Test dle alternativní hypotézy. Nulová hypotéza: Medián základního souboru je tolik a tolik. H 0 : Polovina lidí v našem podniku má plat nad 16 000. ( x 16 000) H A : x < 16 000...levostranný test. Volíme hladinu významnosti α = 5%. Data: Platy náhodně vybraných deseti lidí v tisících: 17, 14, 11, 25, 15, 14, 18, 11, 12, 10 Označím si hodnoty větší nebo rovny testovanému mediánu a spočtu jejich počet: 17+, 14, 11, 25+, 15, 14, 18+, 11, 12, 10 b = 3 Spočteme statistiku: z = 2 3 10 10 = 1, 26 Zjistíme příslušný kvantil: z 0,05 = 1, 65 Statistika padla do oboru přijetí, hypotézu H 0 tedy na hladině významnosti 5% nezamítáme. Tj. Data nejsou v tak příprém rozporu s nulovou hypotézou, abychom ji zamítli. 10

Test pořadové nezávislosti z = 2b (n 2) n 1 Poznámka: Parametr b znamená počet nepřerušených sérií dat, která jsou nad resp. pod výběrovým mediánem. z N (0, 1). Test levostranný. Nulová hypotéza: Data jsou pořadově nezávislá. Máme pocit, že zkoušející se nechává ovlivňovat výsledky předchozích zkoušených. To mu zlepší nebo zhorší náladu a to se pak projeví v jeho aktuálním hodnocení. Je to pravda? H 0 : Při zkoušení jsou známky nezávislé na předchozích výsledcích. Volíme hladinu významnosti α = 5%. Data: Pořadí známek: A, B, A C, D, F, F, E, C, A, B, A, D, E, E, C, B, A, A, B, A sérii. Seřadíme hodnoty a určíme výběrový medián: A, A, A, A, A, A, A, B, B, B, B, C, C, C, D, D, E, E, E, F, F n=21 medián = B Poznámka: Hodnotu B budu počítat do aktuální série. Teprve vyšší resp. nižší hodnota přepne Série: +++ +++ ++++ Počet sérií: b=5 Spočteme statistiku: z = 2b (n 2) n 1 = 10 19 20 = 2, 01 Zjistíme příslušný kvantil: z 0,05 = z 0,95 = 1, 64 Statistika padla do kritického oboru, hypotézu H 0 tedy na hladině významnosti 5% zamítáme. Tj. Známky jsou pořadově závislé a pravděpodobnost, že se v tomto mýlíme, je menší než 5%. 11