Testování statistických hypotéz Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 11. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 27
Obsah 1 Testování statistických hypotéz 2 Jednovýběrové testy Michal Fusek (fusekmi@feec.vutbr.cz) 2 / 27
Testování statistických hypotéz Testování statistických hypotéz Používá se v situacích, kdy potřebujeme rozhodnout o správnosti nějakého tvrzení: Vede nová technologie ke zlepšení parametrů výrobku? Vede reklamní kampaň ke zvýšenému prodeji výrobku? Má absolvování jazykového kurzu významný vliv na zlepšení znalostí zaměstnanců? Statistickou hypotézou rozumíme tvrzení o parametrech rozdělení, z něhož náhodný výběr pochází (např. µ, σ 2, π,... ), nebo tvrzení o typu tohoto rozdělení (např. normální, exponenciální,... ). Příklad Máme rozhodnout, zda střední hodnota µ rozdělení, ze kterého náhodný výběr pochází, je rovna určité konkrétní hodnotě µ 0. Michal Fusek (fusekmi@feec.vutbr.cz) 3 / 27
Testování statistických hypotéz Podstata testování hypotéz Předpoklad, který vyslovíme o určitém parametru či tvaru rozdělení pravděpodobnosti sledované náhodné veličiny, nazýváme nulová hypotéza a značíme H 0. Proti nulové hypotéze H 0 stavíme tzv. alternativní hypotézu, kterou značíme H 1. Postup, kterým na základě hodnot náhodného výběru ověřujeme platnost nulové hypotézy, se nazývá test statistické hypotézy. Možné závěry testování: H 0 zamítáme platí alternativní hypotéza H 0 nezamítáme bud H 0 platí, anebo nemáme dostatek informací k jejímu zamítnutí Michal Fusek (fusekmi@feec.vutbr.cz) 4 / 27
Testování statistických hypotéz H 0 : pacient je nemocný H 1 : pacient je zdravý Rozhodnutí \ Skutečnost H 0 platí H 0 neplatí (platí H 1 ) H 0 nezamítáme Správně Chyba 2. druhu H 0 zamítáme Chyba 1. druhu Správně Chyba 1. druhu α zamítáme hypotézu, která platí α = hladiná významnosti testu (obvykle 0,05) Chyba 2. druhu β nezamítáme hypotézu, která neplatí 1 β je tzv. síla testu - pravděpodobnost, že zamítneme hypotézu, která neplatí Michal Fusek (fusekmi@feec.vutbr.cz) 5 / 27
Testování statistických hypotéz Příklad Chyby 1. a 2. druhu jdou proti sobě nelze minimalizovat obě. Lékař nechce pacienta příliš děsit a označí jej za zdravého, dokud nenahromadí velké množství důkazů o nemoci zvyšuje tím možnost výskytu chyby 1. druhu (pokud nenajde dostatečné množství důkazů, pacient nebude léčen a může zemřít). Na druhou stranu lékař určitě nepředepíše léky zdravému pacientovi snižuje tím možnost výskytu chyby 2. druhu. Příklad Lékař je přehnaně aktivní a předepíše léky i zdravému pacientovi při sebemenším zakašlání zvyšuje tím možnost výskytu chyby 2. druhu (pacientovi se udělá špatně z léků, které nepotřebuje). Na druhou stranu lékař určitě předepíše léky nemocnému pacientovi snižuje tím možnost výskytu chyby 1. druhu. Michal Fusek (fusekmi@feec.vutbr.cz) 6 / 27
Testování statistických hypotéz Strategie? Minimalizovat tu závažnější tak, aby příliš nevzrostla chyba 2. druhu. Volí se α = 0,05. Jakou zvolit nulovou hypotézu? Test hypotézy o parametru θ: H 0 : θ = θ 0 Proti hypotéze H 0 zvolíme alternativní hypotézu: H 1 : θ θ 0 (oboustranný test) H 1 : θ > θ 0 (pravostranný test) H 1 : θ < θ 0 (levostranný test) Jakou zvolit alternativní hypotézu = co se snažíme ukázat? Michal Fusek (fusekmi@feec.vutbr.cz) 7 / 27
Příklad Testování statistických hypotéz U vybraného studenta se zjišt ovalo, jak přesně dokáže odhadnout časový interval 60 vteřin. Provedeme 20 měření. Jak testovat hypotézu, že student odhadne časový interval přesně? H 0 : µ = 60 H 1 : µ 60 Nadhodnocení i podhodnocení považujeme za chybu. Příklad Měříme životnost žárovek. Provedeme 20 měření a zaznamenáme výsledky. Jak testovat hypotézu, že životnost žárovky bude a) nižší, b) vyšší než 1000 hodin? H 0 : µ = 1000 a) H 1 : µ < 1000 b) H 1 : µ > 1000 Michal Fusek (fusekmi@feec.vutbr.cz) 8 / 27
Testování statistických hypotéz Jak probíhá testování? Zvolíme vhodnou testovací statistiku (testové kritérium) T. T má při platnosti H 0 známé rozdělení (N,t,...). Předpokládáme, že platí H 0, a najdeme kritický obor W, do kterého testovací statistika T padne s pravděpodobností α (hladina významnosti): P(T W platí H 0 ) = α. Obor hodnot T se dělí na 2 disjunktní množiny: Platí: W...kritický obor W...obor přijetí T W zamítáme H 0 T W nezamítáme H 0 Michal Fusek (fusekmi@feec.vutbr.cz) 9 / 27
Testování statistických hypotéz Jak vypadá kritický obor? Hranice W tvoří odpovídající kvantily náhodné veličiny T. H 0 : θ = θ 0, H 1 : θ θ 0 (oboustranný test) W = (, t α 2 t1 α, ) 2 Michal Fusek (fusekmi@feec.vutbr.cz) 10 / 27
Testování statistických hypotéz H 0 : θ = θ 0, H 1 : θ > θ 0 (pravostranný test) W = t 1 α, ) W = (, t α H 0 : θ = θ 0, H 1 : θ < θ 0 (levostranný test) Michal Fusek (fusekmi@feec.vutbr.cz) 11 / 27
Testování statistických hypotéz Shrnutí 1) Zformulujeme hypotézy H 0 a H 1. 2) Zvolíme hladinu významnosti α. 3) Zvolíme vhodné testové kritérium (testovací statistiku) T a vypočteme jeho hodnotu. 4) Stanovíme kritický obor W (s ohledem na formulaci H 1 ). 5) Závěr: Jestliže hodnota testového kritéria leží v kritickém oboru, zamítáme hypotézu H 0 ve prospěch alternativní hypotézy H 1 a říkáme, že s pravděpodobností alespoň 1 α platí H 1 (pravděpodobnost nesprávnosti tohoto výroku je nejvýše α). Pokud naměřená hodnota v kritickém oboru neleží, hypotézu H 0 nezamítáme a říkáme, že hypotéza H 1 se neprokázala. Michal Fusek (fusekmi@feec.vutbr.cz) 12 / 27
Testování statistických hypotéz Testování pomocí p-hodnoty p-hodnota je nejmenší hladina významnosti, při které lze ještě zamítnout H 0. Jestliže p < α, pak zamítáme H 0 na hladině významnosti α. Pravostranný test: H 0 : θ = θ 0 H 1 : θ > θ 0 H 0 nezamítáme H 0 zamítáme Michal Fusek (fusekmi@feec.vutbr.cz) 13 / 27
Jednovýběrové testy Test střední hodnoty normálního rozdělení (σ 2 známe) Necht x 1,..., x n je náhodný výběr z N(µ, σ 2 ), kde rozptyl σ 2 známe. Testujeme hypotézu H 0 : µ = µ 0. Testové kritérium T = x µ 0 n σ má za platnosti H 0 normální rozdělení N(0, 1). Kritický obor zvolíme na základě alternativní hypotézy: H 1 : µ > µ 0 W = {T : T u 1 α } H 1 : µ < µ 0 W = {T : T u 1 α } H 1 : µ µ 0 kde u 1 α, u 1 α 2 N(0, 1). W = {T : T u 1 α 2 } jsou kvantily normovaného normálního rozdělení Michal Fusek (fusekmi@feec.vutbr.cz) 14 / 27
Příklad Jednovýběrové testy Žáci posledního ročníku základní školy v ČR píší srovnávací test z matematiky. Je známo z předchozích let, že bodové hodnocení testu má normální rozdělení se střední hodnotou 500 bodů a směrodatnou odchylkou 100 bodů. V rámci boje za zlepšení znalostí v matematice všechny školy zakoupily od jisté organizace online kurz, po jehož absolvování by se měly znalosti žáků zlepšit. Jelikož byl do kurzu investován značný obnos peněz, na jisté ZŠ se rozhodli zjistit, zda opravdu došlo ke zlepšení znalostí žáků a investice se vyplatila. Proto náhodně vybrali 25 žáků a po provedení testu z matematiky se ukázalo, že průměrně dosáhli a) 530 bodů, b) 540 bodů. Vedlo absolvování kurzu ke zlepšení znalostí v matematice, nebo to byla náhoda, že zrovna vybrali žáky, kterým matematika jde? Řešení: X...bodový zisk Budeme předpokládat, že směrodatná odchylka bodového hodnocení zůstala nezměněna. Michal Fusek (fusekmi@feec.vutbr.cz) 15 / 27
Jednovýběrové testy a) x = 530, σ = 100, n = 25 H 0 : µ = 500 H 1 : µ > 500 (kurz nemá vliv na zlepšení) (kurz zlepší znalosti matematiky) W = {T : T u 1 α } T? u 0,95 u 0,95. = 1,65 T < 1,65 nezamítáme H 0 T = x µ 0 n = 1,5 σ S 95% spolehlivostí se nepovedlo prokázat, že absolvování kurzu vede ke zlepšení znalostí v matematice. Michal Fusek (fusekmi@feec.vutbr.cz) 16 / 27
Jednovýběrové testy Co kdybychom požadovali menší spolehlivost a zvolili α = 0,1? H 0 : µ = 500 H 1 : µ > 500 (kurz nemá vliv na zlepšení) (kurz zlepší znalosti matematiky) W = {T : T u 1 α } T? u 0,90 u 0,90. = 1,29 T = x µ 0 n = 1,5 σ T > 1,29 zamítáme H 0 (platí H 1 ) S 90% spolehlivostí vede absolvování kurzu ke zlepšení znalostí v matematice. Michal Fusek (fusekmi@feec.vutbr.cz) 17 / 27
Jednovýběrové testy b) x = 540, σ = 100, n = 25 H 0 : µ = 500 H 1 : µ > 500 (kurz nemá vliv na zlepšení) (kurz zlepší znalosti matematiky) W = {T : T u 1 α } T? u 0,95 u 0,95. = 1,65 T = x µ 0 n = 2 σ T > 1,65 zamítáme H 0 (platí H 1 ) S 95% spolehlivostí vede absolvování kurzu ke zlepšení znalostí v matematice. Michal Fusek (fusekmi@feec.vutbr.cz) 18 / 27
Jednovýběrové testy Test střední hodnoty normálního rozdělení Necht x 1,..., x n je náhodný výběr z N(µ, σ 2 ). Testujeme hypotézu Testové kritérium H 0 : µ = µ 0. T = x µ 0 n, kde s 2 = 1 s n 1 ( n i=1 x 2 i nx 2 ), má za platnosti H 0 Studentovo rozdělení s n 1 stupni volnosti. Kritický obor zvolíme na základě alternativní hypotézy: H 1 : µ > µ 0 W = {T : T t 1 α (n 1)} H 1 : µ < µ 0 W = {T : T t 1 α (n 1)} H 1 : µ µ 0 W = {T : T t 1 α (n 1)} 2 kde t 1 α (n 1), t 1 α (n 1) jsou kvantily Studentova rozdělení s n 1 2 stupni volnosti. Michal Fusek (fusekmi@feec.vutbr.cz) 19 / 27
Příklad Jednovýběrové testy Spotřeba benzínu jistého automobilu při rychlosti 90 km za hodinu má normální rozdělení. Výrobce tvrdí, že průměrná spotřeba při této rychlosti je menší než 6,4 l/100 km. Bylo provedeno měření spotřeby u 20 náhodně vybraných automobilů s těmito výsledky: Říká výrobce pravdu? Řešení: X...spotřeba benzínu 6,5; 6,8; 6,7; 6,0; 5,6; 6,6; 5,5; 6,4; 5,5; 6,5; 6,3; 6,2; 6,3; 5,9; 5,8; 6,4; 6,5; 6,3; 5,7; 6,1; x = 6,180, σ = 0,399, n = 20 H 0 : µ = 6,4 H 1 : µ < 6,4 (spotřeba je menší) Michal Fusek (fusekmi@feec.vutbr.cz) 20 / 27
Jednovýběrové testy T = x µ 0. n = 2,466 σ W = {T : T t 1 α (19)} T? t 0,95 (19) t 0,95 (19). = 1,73 T < 1,73 zamítáme H 0 (platí H 1 ) S 95% spolehlivostí bude spotřeba menší než 6,4 l/100 km. Co když data nemají normální rozdělení? Michal Fusek (fusekmi@feec.vutbr.cz) 21 / 27
Jednovýběrové testy Test střední hodnoty pro velký výběr Necht x 1,..., x n je náhodný výběr dostatečně velkého rozsahu z libovolného rozdělení. Testujeme hypotézu Testové kritérium H 0 : µ = µ 0. T = x µ 0 n s má za platnosti H 0 asymptoticky normální rozdělení N(0, 1). Kritický obor zvolíme na základě alternativní hypotézy: H 1 : µ > µ 0 W = {T : T u 1 α } H 1 : µ < µ 0 W = {T : T u 1 α } H 1 : µ µ 0 kde u 1 α, u 1 α 2 N(0, 1). W = {T : T u 1 α 2 } jsou kvantily normovaného normálního rozdělení Michal Fusek (fusekmi@feec.vutbr.cz) 22 / 27
Příklad Jednovýběrové testy Výrobce tvrdí, že jím vyrobené žárovky mají životnost alespoň 1000 hodin. Abychom ověřili tvrzení výrobce, změřili jsme životnost 50 náhodně vybraných žárovek a zjistili, že průměrná životnost je 997,08 hodin se směrodatnou odchylkou 104,709 hodin. Říká výrobce pravdu? Řešení: X...životnost žárovek (má neznáme rozdělení) x = 997,08, σ = 104,709, n = 50 H 0 : µ = 1000 H 1 : µ < 1000 (životnost je nižší) Michal Fusek (fusekmi@feec.vutbr.cz) 23 / 27
Jednovýběrové testy T = x µ 0. n = 0,197 σ W = {T : T u 1 α } T? u 0,95 u 0,95. = 1,65 T > 1,65 nezamítáme H 0 S 95% spolehlivostí nelze tvrdit, že průměrná životnost je nižší. Co když data mají normální rozdělení? W = {T : T t 1 α (49)} T? t 0,95 (49) t 0,95 (49). = 1,68 T > 1,68 nezamítáme H 0 S 95% spolehlivostí nelze tvrdit, že průměrná životnost je nižší. Michal Fusek (fusekmi@feec.vutbr.cz) 24 / 27
Jednovýběrové testy Test parametru alternativního rozd. pro velký výběr Necht x 1,..., x n je náhodný výběr z alternativního rozdělení A(π) a p je výběrová relativní četnost sledovaného znaku. Testujeme hypotézu Testové kritérium T = H 0 : π = π 0. p π 0 π0 (1 π 0 ) n má za platnosti H 0 asymptoticky normální rozdělení N(0, 1). Kritický obor zvolíme na základě alternativní hypotézy: H 1 : µ > µ 0 W = {T : T u 1 α } H 1 : µ < µ 0 W = {T : T u 1 α } H 1 : µ µ 0 kde u 1 α, u 1 α 2 N(0, 1). W = {T : T u 1 α 2 } jsou kvantily normovaného normálního rozdělení Michal Fusek (fusekmi@feec.vutbr.cz) 25 / 27
Příklad Jednovýběrové testy V jistém městě kouří 40 % lidí. Ministerstvo zdravotnictví by chtělo toto procento snížit, a proto spustí osvětovou kampaň. Po ukončení kampaně byl proveden průzkum a bylo zjištěno, že z 1000 náhodně vybraných obyvatel kouří 360. Měla kampaň pozitivní dopad na podíl kuřáků ve městě? Řešení: p = 0,36, n = 1000 H 0 : π = 0,4 H 1 : π < 0,4 (počet kuřáků je nižší) Michal Fusek (fusekmi@feec.vutbr.cz) 26 / 27
Jednovýběrové testy T = p π 0 π0 (1 π 0 ) n. = 2,58 W = {T : T u 1 α } T? u 0,95. u 0,95 = 1,65 T < 1,65 zamítáme H 0 (platí H 1 ) S 95% spolehlivostí se počet kuřáků snížil. Michal Fusek (fusekmi@feec.vutbr.cz) 27 / 27