Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016
Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců koaličních stran. Jaká je pravděpodobnost, že průzkum veřejného mínění o rozsahu n = 1 500 ukáže nesprávně převahu opozice? P X a, b = Φ b + 0,5 np np(1 p) Φ a 0,5 np np 1 p
Opakování: CLV příklad 1 Řešení: X počet příznivců koalice Pokud by byl výběr proveden zcela náhodně, pak X má: binomické rozdělení X~Bi n; p ~Bi 1500; 0,52, které můžeme aproximovat normálním rozdělením o parametrech: μ = σ 2 =
Opakování: CLV příklad 1 X počet příznivců koalice X~N np; np 1 p = N 780; 374,4 Průzkum ukáže nesprávně převahu opozice, jestliže X 749, tj. P X 749 = 0,0575 Průzkum o rozsahu n = 1 500 ukáže nesprávně převahu opozice s pravděpodobností přibližně 0,0575.
Opakování: CLV příklad 2 Zadání: Výletní člun má nosnost 5 000 kg. Hmotnost cestujících je náhodná veličina se střední hodnotou 70 kg a směrodatnou odchylkou 20 kg. Kolik cestujících může člunem cestovat, aby pravděpodobnost přetížení člunu byla menší než 0,1 %?
Opakování: CLV příklad 2 Řešení: X celková hmotnost všech n cestujících Dle CLV má X~N μ = 70 n; σ 2 = 400 n Hledáme takové maximální n, aby P X 5 000 < 0,001. n 64
Přehled témat 1. Pravděpodobnost (definice, využití, výpočet pravděpodobností náhodných jevů) 2. Podmíněná pravděpodobnost 3. Náhodná veličina 4. Statistické charakteristiky 5. Slabý zákon velkých čísel 6. Centrální limitní věta (teorém) 7. Bodový a intervalový odhad 8. Testování hypotéz 9. Korelace a regrese
8.1 Testování statistických hypotéz motivační příklad Příklad platová diskriminace Společnost v rámci vnitřního šetření uskutečnila i mapování platových podmínek za účelem zjištění, zda dochází k platové diskriminaci žen. Analýza zahrnovala 100 náhodně vybraných zaměstnanců, z toho 35 bylo žen s X 35 = 20 685,5 Kč a s X = 5 179,5 Kč, 65 bylo mužů s Y 65 = 21 364,4 Kč a s X = 4 334,0 Kč. Výsledný rozdíl je Y X = 678,9 > 0 Kč. Je možné říci, že rozdíl je dostatečně průkazný na to, aby se mohlo tvrdit, že muži (v dané firmě) mají obecně vyšší platy jak ženy?
8.1 Testování statistických hypotéz motivační příklad Spíše nás zajímá, porovnání středních hodnot platů mužů a žen nikoliv, zda libovolný muž vydělá více než libovolná žena. Je střední hodnota platů vyšší u mužů než u žen? Již víme, že střední hodnoty odhadujeme výběrovými průměry, což je rozumné rozhodnout na základě porovnání X a Y. Jiný náhodný výběr by zahrnoval jiných 100 zaměstnanců, a dostali bychom tak odlišné výběrové průměry X a Y. Výběrové průměry X a Y jsou tedy náhodné veličiny. Jejich hodnoty neodpovídají středním hodnotám E X a E(Y) přesně, jsou to pouze jejich bodové odhady. Jestliže vyšlo Y X = 678,9 > 0 Kč, je možné tvrdit, že E Y E(X) > 0 Kč?
8.1 Testování statistických hypotéz motivační příklad Kdy se výběrové průměry liší dostatečně Když vezmeme dva výběry z téhož rozdělení, pak výběrové průměry se budou lišit (byť jen málo), i když jsou střední hodnoty stejné. Příklad s platy: otázkou je, zda je rozdíl v průměrech jen vlivem náhody nebo se skutečně liší střední hodnoty. Pokud oba výběrové průměry odhadují tutéž střední hodnotu, pak by se průměry neměly velmi lišit. Je ovšem třeba zohlednit: počet pozorování (s rostoucím počtem roste přesnost odhadů), variabilitu (vysoký rozptyl způsobuje větší nejistotu). Pokud zohledníme rozdělení Y X, jsme schopni zjistit, jaké hodnoty jsou již extrémní a málo pravděpodobné. Pak je třeba aplikovat statistické testy pro správné rozhodnutí.
8.2 Testování statistických hypotéz základní pojmy Testováním hypotéz se chápe vyhodnocování pravdivosti výroků na základě náhodného výběru, tj. ověřování platnosti nějakého výroku. Provádí se za pomoci statistických testů. Hypotéza je výrok, o jehož pravdivosti chceme rozhodnout.
8.2 Testování statistických hypotéz základní pojmy Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru). Příklad: Střední hodnota zakladního souboru je rovna 100. Střední hodnota prvního základního souboru se rovná střední hodnotě druhého základního souboru. Statistické hypotézy dělíme na parametrické a neparametrické.
8.2 Testování statistických hypotéz základní pojmy Parametrická hypotéza je hypotéza o parametrech rozdělení základního souboru. Patří sem: hypotézy o parametru jednoho základního souboru o střední hodnotě, mediánu, rozptylu, atd. hypotézy o parametrech dvou základních souborů (srovnávací testy) rovnost středních hodnot, rovnost rozptylů, atd. hypotézy o parametrech tří a více základních souborů.
8.2 Testování statistických hypotéz základní pojmy Neparametrická hypotéza je hypotéza o jiných vlastnostech základního souboru např. tvaru, rozdělení, závislosti proměnných, atd.
8.2 Testování statistických hypotéz základní pojmy Statistické testy dělíme na parametrické a neparametrické testy. Parametrickým testem rozumíme takový test, pro jehož odvození je nutno specifikovat typ rozdělení, případně jeho parametry. Nejčastěji se setkáváme s předpokladem normality dat. Neparametrickým testem rozumíme takový test, pro jehož odvození není nutno specifikovat typ rozdělení.
8.2 Testování statistických hypotéz základní pojmy Při testování hypotéz proti sobě stojí 2 hypotézy nulová a alternativní hypotéza. Nulová hypotéza H 0 vyjadřuje tvrzení o základním souboru, které je bráno jako předpoklad při testování (rovnovážný stav). Alternativní hypotéza H A stojí proti nulové hypotéze a představuje porušení rovnovážného stavu. Existují tři typy alternativních hypotéz: levostranná alternativní hypotéza, pravostranná alternativní hypotéza, oboustranná alternativní hypotéza.
8.2 Testování statistických hypotéz základní pojmy Příklad: H 0 : střední hodnota základního souboru μ = 10, levostranná H A : μ < 10, pravostranná H A : μ > 10, oboustranná H A : μ 10. Příslušná alternativní hypotéza se volí na základě pozorování chování výběrového souboru. Testování hypotéz je založeno na následujícím principu: Pokud výběrový soubor neukáže na statisticky významný rozpor s nulovou hypotézou, pak nesmíme nulovou hypotézu zamítnout. Jelikož na základě chování výběrového souboru (tedy jen vzorku populace) usuzujeme o chování základního souboru (tedy celé populace), můžeme se při rozhodování dopustit chyby.
8.2 Testování statistických hypotéz základní pojmy Skutečnost Platí Platí Výsledek testu Platí H 0 Platí H A Správné rozhodnutí pravděpodobnost 1 α (spolehlivost testu) Chyba I. druhu pravděpodobnost α (hladina významnosti) Chyba II. druhu pravděpodobnost β Správné rozhodnutí pravděpodobnost 1 β (síla testu)
8.2 Testování statistických hypotéz základní pojmy Snahou je minimalizovat obě chyby, což však není možné, protože snížením β vzroste α a naopak. Při statistickém testování hypotéz se volí hodnota α (nejčastěji 0,05 či 0,01), protože chyba I. druhu je významnější než chyba II. druhu. Chybu II. druhu lze snížit volbou vhodného testu a nebo zvětšením rozsahu výběrového souboru.
8.3 Testování statistických hypotéz klasický test Postup při klasickém testování hypotéz je následující: 1. Formulace nulové a alternativní hypotézy. 2. Volba testové statistiky a jejího rozdělení při platnosti nulové hypotézy (tzv. nulového rozdělení). Testová statistika a její nulové rozdělení je dána pro konkrétní test.
8.3 Testování statistických hypotéz klasický test Postup při klasickém testování hypotéz je následující: 3. Sestrojení kritického oboru a oboru přijetí obor všech možných hodnot testové statistiky rozdělíme na dva disjunktní obory, tj. a) obor přijetí takové hodnoty testované statistiky, které svědčí pro nezamítnutí nulové hypotézy b) kritický obor takové hodnoty testové statistiky, které svědčí pro zamítnutí nulové hypotézy Hranice mezi obory se nazývá kritická hodnota testu. Kritický obor je tak velký, aby pravděpodobnost, že testová statistika leží v kritickém oboru při předpokladu platnosti nulové hypotézy, byla rovna α.
8.3 Testování statistických hypotéz klasický test Levostranná alternativní hypotéza f(x) kritický obor: α obor přijetí: 1 α kritická hodnota 0 x
8.3 Testování statistických hypotéz klasický test Pravostranná alternativní hypotéza f(x) obor přijetí: 1 α kritický obor: α 0 kritická hodnota x
8.3 Testování statistických hypotéz klasický test Oboustranná alternativní hypotéza f(x) obor přijetí: 1 α kritický obor: α 2 kritický obor: α 2 kritická hodnota 0 kritická hodnota x
8.3 Testování statistických hypotéz klasický test 4. Výpočet pozorované hodnoty testové statistiky 5. Vyhodnocení testu: a) Je-li hodnota testové statistiky v oboru přijetí, potom nezamítneme nulovou hypotézu. b) Je-li však hodnota testové statistiky v kritickém oboru, pak zamítáme nulovou hypotézu ve prospěch alternativní hypotézy.
8.4 Pearsonův χ 2 test dobré shody Vzhledem k tomu, že nejpoužívanější parametrické testy předpokládají normalitu dat, je nutné se nejprve zabývat tím, jak otestovat, že tato data získaná náhodným výběrem pocházejí z populace řídicí se normálním rozdělením s parametry μ a σ 2. K tomu se využívají různé statistické testy: Jarqueův a Beryho test normality (JB test) ukázali jsme Shapirův-Wilkův, Andersonův-Darlingův, Kolmogorovův- Smirnovův, Lillieforsův, atd. a tzv. testy dobré shody.
8.4 Pearsonův χ 2 test dobré shody Tento test je určen k testování nulové hypotézy v obecném tvaru, tj. náhodný výběr pochází z konkrétního rozdělení pravděpodobnosti s konkrétními parametry. Alternativní hypotéza popírá nulovou hypotézu, tj. náhodný výběr nepochází z konkrétního rozdělení pravděpodobnosti s konkrétními parametry. Pokud neznáme parametry příslušného rozdělení, je třeba je na základě náhodného výběru odhadnout, například pomocí metody maximální věrohodnosti. Pearsonův χ 2 test dobré shody umožňuje otestovat náhodný výběr i na jiná rozdělení než jen normální rozdělení.
8.4 Pearsonův χ 2 test dobré shody Pro testovanou statistiku G platí kde G = k i=1 n i n π i 2 n π i 2 χ k h 1 k je počet tříd n je rozsah souboru n i je počet pozorování v třídě i (pozorované četnosti) n π i je teoretická (očekávaná) četnost h je počet odhadovaných parametrů rozdělení Aby bylo nulové rozdělení dobře aproximováno rozdělením χ 2, je třeba, aby byly teoretické četnosti ve všech třídách větší než 5. Není-li tento předpoklad pro všechny třídy splněn, je nutno příslušné třídy vhodně sloučit (toto má za následek pokles stupňů volnosti rozdělení χ 2 ).
8.4 Pearsonův χ 2 test dobré shody S rostoucí hodnotou testové statistiky roste rozpor naměřených dat s nulovou hypotézou, od určité hodnoty (kritická hodnota testu) je tento rozpor statisticky významný, zamítneme tedy nulovou hypotézu ve prospěch alternativní hypotézy. f(x) obor přijetí: 1 α kritický obor: α 0 x kritická hodnota
8.4 Pearsonův χ 2 test dobré shody Kritickou hodnotu testu získáme jako 100 1 α % kvantil rozdělení χ 2 s příslušným počtem stupňů volnosti. Hodnotu můžeme odečíst z tabulek nebo pomocí softwaru.
8.5 Pearsonův χ 2 test dobré shody příklad 1 Zadání: V tenké vrstvě zlata se registroval počet částic zlata, které se dostaly do zorného pole mikroskopu. Pozorování se prováděla pravidelně vždy po uplynutí stejně dlouhého časového intervalu. počet částic 0 1 2 3 4 5 6 7 absolutní četnost 112 168 130 68 32 5 1 1 Ověřte pomocí testu χ 2 dobré shody, zda jsou data realizací náhodného výběru z Poissonova rozdělení s parametrem λ = 1,5.
8.5 Pearsonův χ 2 test dobré shody příklad 1 Řešení: 1) Náhodná veličina se teoreticky řídí Poissonovým rozdělením: obor hodnot rozdělíme do šesti tříd, tj. 0, 1, 2, 3, 4, 5 a více rozsah výběru n = 517 2) Pro jednotlivé třídy se porovnají skutečné četnosti n i a teoretické četnosti n π i kde π i = P X = i = e 1,5 1,5 i, pro i = 0, 1, 2, 3, 4 i! π 5 = P X 5 = 1 P X 4 = 1 4 π i i=0
8.5 Pearsonův χ 2 test dobré shody příklad 1 počet částic H 0 : množství zlata v zorném poli mikroskopu je výběr z Po λ = 1,5 Srovnání χ 2 5 a více n = i n π 2 i i=0 = n π i s 5% horním kvantilem χ 2 2 o 5 stupních volnosti χ 0,05 [5] = Z toho vyplývá, že hodnota testové statistiky χ 2 je daleko menší než 5% horní kvantil χ 2 rozdělení. Závěr: hypotézu H 0 skutečná četnost n i 0 112 1 168 2 130 3 68 4 32 5 a více 7 teoretická četnost n π i n i n π i n π i 2
8.5 Pearsonův χ 2 test dobré shody příklad 2 Zadání: Nedokonalost výroby hrací kostky může způsobit, že hra s touto kostkou není spravedlivá. Proto se kostkou několikrát házelo. hodnota kostky 1 2 3 4 5 6 četnost výskytu 979 1002 1015 980 1040 984 Je možné prokázat na základě provedených hodů, že hra s touto kostkou je nespravedlivá?
8.5 Pearsonův χ 2 test dobré shody příklad 2 Řešení: 1)počet hodů n = 6 000, je-li kostka spravedlivá, pak pravděpodobnost p i = 1, i = 1, 2,, 6 6 2) Otestujeme pomocí testu χ 2, zda empirické četnosti n i, i = 1, 2,, 6 se statisticky významně liší od teoretické četnosti n π i, i = 1, 2,, 6 hodnota kostky 1 2 3 4 5 6 n i 979 1002 1015 980 1040 984 n π i n i n π i 2 n π i
8.5 Pearsonův χ 2 test dobré shody příklad 2 hodnota kostky 1 2 3 4 5 6 n i 979 1002 1015 980 1040 984 n π i 1000 1000 1000 1000 1000 1000 n i n π i 2 n π i 0,441 0,004 0,225 0,400 1,600 0,256 H 0 : kostka je spravedlivá (vyvážená) Srovnání χ 2 6 n = i n π 2 i i=0 = n π i s 5% horním kvantilem χ 2 2 o 5 stupních volnosti χ 0,05 [5] = Z toho vyplývá, že hodnota testové statistiky χ 2 není větší než 5% horní kvantil χ 2 rozdělení. Závěr: hypotézu H 0 Příslušná p-hodnota je 0,7114, tedy vysoká, a to svědčí o tom, že kostka je opravdu spravedlivá.
8.5 Pearsonův χ 2 test dobré shody příklad 2 χ 2 6 n = i n π 2 i i=0 = n π i 2 χ 0,05 [5] =
8.5 Pearsonův χ 2 test dobré shody příklad 3 Zadání: Pracuje generátor náhodných čísel z normálního rozdělení chybně? interval ; 2,5 2,5; 2,0 2,0; 1,5 1,5; 1,0 1,0; 0,5 0,5; 0,0 n i 4 18 30 93 156 210 n π i 6,2 16,5 44,1 91,8 149,9 191,5 n i n π i 2 n π i interval 0,0; 0,5 0,5; 1,0 1,0; 1,5 1,5; 2,0 2,0; 2,5 2,5; n i 165 164 103 44 8 6 n π i 191,5 149,9 91,8 44,1 16,5 6,2 n i n π i 2 n π i
8.5 Pearsonův χ 2 test dobré shody příklad 3 H 0 : rozdělení generovaných čísel odpovídá teoretickému normálnímu Srovnání χ 2 12 n = i n π 2 i i=0 = n π i s 5% horním kvantilem χ 2 2 o 11 stupních volnosti χ 0,05 11 = Hodnota testové statistiky χ 2 není větší než 5% horní kvantil χ 2 rozdělení. Závěr: hypotézu H 0