2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Podobné dokumenty
4ST201 STATISTIKA CVIČENÍ Č. 7

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

REGRESNÍ ANALÝZA. 13. cvičení

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Ing. Michael Rost, Ph.D.

Testování hypotéz. 4. přednáška

Testování statistických hypotéz

Aproximace binomického rozdělení normálním

Normální (Gaussovo) rozdělení

Cvičení ze statistiky - 8. Filip Děchtěrenko

4EK211 Základy ekonometrie

Regresní a korelační analýza

12. cvičení z PST. 20. prosince 2017

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Testy statistických hypotéz

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

= = 2368

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování statistických hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Statistické metody uţívané při ověřování platnosti hypotéz

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Pravděpodobnost a matematická statistika

Testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Teoretické modely diskrétních náhodných veličin

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

STATISTICKÉ HYPOTÉZY

Stručný úvod do testování statistických hypotéz

Přednáška č. 11 Analýza rozptylu při dvojném třídění

Statistická šetření a zpracování dat.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Normální (Gaussovo) rozdělení

Testování statistických hypotéz. Obecný postup

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Teoretické modely diskrétních náhodných veličin

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

STATISTIKA (pro navazující magisterské studium)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

2 ) 4, Φ 1 (1 0,005)

Pravděpodobnost a aplikovaná statistika

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Jana Vránová, 3. lékařská fakulta UK

Cvičení ze statistiky - 9. Filip Děchtěrenko

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Jednostranné intervaly spolehlivosti

5 Parametrické testy hypotéz

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

STATISTICKÉ TESTY VÝZNAMNOSTI

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Neparametrické metody

STATISTICKÉ TESTY VÝZNAMNOSTI

Náhodné veličiny, náhodné chyby

Charakteristika datového souboru

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Testy. Pavel Provinský. 19. listopadu 2013

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

12. prosince n pro n = n = 30 = S X

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Neparametrické metody

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

ADDS cviceni. Pavlina Kuranova

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Tomáš Karel LS 2012/2013

Vzorová prezentace do předmětu Statistika

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

INDUKTIVNÍ STATISTIKA

STATISTICKÉ ZJIŠŤOVÁNÍ

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

Transkript:

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy TESTOVÁNÍ HYPOTÉZ RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevl jsem pravdu! ale raděj: Objevl jsem jednu z pravd! Chall Gbran Testování hypotéz je statstcká metoda, která umožňuje, se zvolenou tolerancí, zamítnout předpoklad určtého jevu. Např. Zda zmetkovtost tří různých výrobních lnek je stejná, zda platí předpoklad, že určtý lék je účnnější než jný; nebo například, zda platí, že úroveň matematckých dovedností studentů OPF SU je nezávslá typu střední školy, nebo zda rozhodnutí spotřebtele o nákupu určtého výrobku závsí na jeho vzdělání atp. Populační soubory mohou obsahovat neomezeně velký počet hodnot, mohou tedy být potencálně nekonečné (spočetné nespočetné). Například počet zákazníků daného supermarketu není omezený (an přesně známý), počet hodnot hmotnost plodů zjštěných například vážením závsí na počtu opakování měření a je také teoretcky neomezený, atp. Proto byl pojem statstcký soubor rozšířen o případy s nekonečným počtem prvků a byl zaveden pojem náhodné velčny, který zahrnuje jak klascké soubory s konečným počtem prvků (hodnot), tak soubory s nekonečným počtem prvků. Náhodná velčna obsahuje dále nformac o pravděpodobnost, se kterou se daná hodnota v souboru vyskytuje tzv. rozdělení pravděpodobnost. U klasckého souboru s konečným počtem hodnot tato pravděpodobnost odpovídá relatvní četnost výskytu dané hodnoty v souboru. I když náhodná velčna nabývá potencálně nekonečně mnoha hodnot (např. výsledků měření rozměru jsté součástky), má smysl se ptát, jaká je průměrná hodnota (případně rozptyl ) takové velčny. Tato otázka vedla k zavedení pojmů střední hodnota a rozšíření významu pojmu populační rozptyl. Tyto pojmy přrozeným způsobem rozšřují jž známé pojmy artmetcký průměr a rozptyl a nazývají se souhrnně parametry. Více o tom čtenář nalezne např. v [KvMeB]. Statstcká hypotéza je tvrzení o hodnotách parametrů náhodných velčn (nejčastěj je tímto parametrem střední hodnota) nebo o tvaru pravděpodobnostních rozdělení náhodných velčn. Testování statstckých hypotéz je založeno na ověřování, zda statstcká hypotéza platí s jstou poměrně vysokou pravděpodobností p=1-, přtom je malé číslo (obvykle 0,05 nebo menší), které se nazývá hladna významnost. Statstcké hypotézy rozdělujeme na parametrcké hypotézy a neparametrcké hypotézy. Parametrcké hypotézy se týkají jednoho nebo několka parametrů daného rozdělení náhodné velčny. Neparametrcké hypotézy se netýkají parametrů rozdělení náhodné velčny, nýbrž jných statstckých vlastností daných rozdělení. Předpoklad, který se ověřuje (testuje), se nazývá nulová hypotéza a značí se H 0. V případě že by nulová hypotéza neplatla, bude platt alternatvní hypotéza H 1. Alternatvní hypotéza může mít více podob. Pro parametrcké testy, tedy obecně nulovou hypotézu H 0 : θ=θ 0 (čt: hodnota parametru theta je rovna konkrétní hodnotě thetanula ) může mít alternatvní hypotéza tvar: 1. H 1 : θ=θ 1 ( hodnota parametru theta je rovna konkrétní hodnotě theta- jedna ). H 1 : θ θ 0 tzv. oboustranná hypotéza 3. H 1 : θ>θ 0 tzv. jednostranná hypotéza 4. H 1 : θ<θ 0 tzv. jednostranná hypotéza Testováním statstcké hypotézy buď zamítáme nebo nezamítáme (tj. přjímáme). Př rozhodování o platnost H0 č H1 je možné se dopustt dvou chyb: chyba prvního druhu: zamítneme H 0, když je správná (tj. platí ) chyba druhého druhu: nezamítneme H 0, když není správná - 1 -

Testování hypotéz U testování stanovíme malou pravděpodobnost α, která se nazývá hladna významnost a určuje maxmální možnou velkost chyby prvního druhu, kterou jsme u testu ochotn akceptovat. Testy jsou konstruovány tak, aby pro danou hladnu významnost byla chyba druhého druhu co nejmenší. Jako α se obvykle volí hodnota 0,05 nebo 0,01. Pravděpodobnost chyby druhého druhu se nazývá síla testu, značí se β. U každého statstckého testu musíte dodržet postup testování, který se skládá ze čtyř částí: 1. Formulace nulové a alternatvní hypotézy.. Výpočet testového krtéra. 3. Nalezení oboru přjetí a krtckého oboru. 4. Určení výsledku, tedy rozhodnutí přjmout nebo zamítnout nulovou hypotézu. Rozhodujete na základě porovnání testového krtéra s oborem přjetí a krtckým oborem. V případě, že testové krtérum spadá do oboru přjetí, přjímáte nulovou hypotézu. Pokud leží v krtckém oboru, zamítáte nulovou hypotézu, přjímáte alternatvní hypotézu. Použtím statstckých programů se body., 3., a 4. testování u mnoha testů zjednodušly na body: Část a 3: Nalezení pravděpodobnost rozdělení odpovídajícího testovému krtéru. Část 4: Určení výsledku porovnání vypočítané p-hodnoty s hladnou významnost α. V dalším textu jsou uvedeny některé parametrcké a neparametrcké testy. Pro každý test naleznete obecný postup a funkc programu Excel, které vám testování zjednoduší..1 PŘÍKLADY PARAMETRICKÝCH TESTŮ.1.1 TEST STŘEDNÍ HODNOTY, KDYŽ JE ZNÁMÉ Test pro střední hodnotu, když je známe lze provádět v případě, že se testují hodnoty velkého vzorku (n > 30), nebo menší vzorek pochází z výběru z normálního rozdělní. V případě, že se jedná o velký vzorek, je možné nahradt v následujícím vztahu populační směrodatnou odchylku výběrovou směrodatnou odchylkou s : Postup testování: 1. Stanovení hypotézy: H 0 :μ=μ 0 H 1 :μ μ 0 x 0. n. Testové krtérum: T 3. Obor přjetí: 0, u (1 ), krtcký obor: ( u (1 ), ), u je kvantl N(0,1). 4. Výsledek ŘEŠENÝ PŘÍKLAD.1 Automat na plnění ltrových lahví je podle výrobce seřízen tak, že střední hodnota objemu naplněných lahví je 1000 ml se směrodatnou odchylkou 5 ml. Kontrola jakost 9 naplněných lahví ukázala, že průměrný objem náplně byl 998 ml. Naměřené hodnoty jsou v tabulce. Je automat správně seřízen? Testujte na hladně významnost 0,05, předpokládejte normální rozdělení základního souboru. 996 999 1000 1000 998 997 996 996 1000 - -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Řešení: Postup testování: 1. H 0 :μ=1000 H 1 :μ 1000 x 0. n 998 1000. 9. Testové krtérum: T 1, 5 3. Krtckou hodnotu u(1-α/) vypočítáme pomocí funkce =NORMSINV(0,975), tedy u(0,975)=1,96. Potom obor přjetí je nterval: 0 ;1, 96, krtcký obor: ( 1,96 ; ) 4. Výsledek: Testové krtérum spadá do oboru přjetí a proto na hladně významnost 0,05 přjímáme nulovou hypotézu a automat je seřízený správně. Pro určení výsledku lze použít funkc =ZTEST(pole;x;sgma), která vypočítá pravděpodobnost normálního rozdělení odpovídající testovému krtéru (tzv. p-hodnotu nebol sgnfkanc). Výsledek se pak stanoví porovnáním s hladnou významnost α. Argumenty funkce jsou: vstupující pole hodnot, hodnota μ 0 a populační směrodatná odchylka. V případě, že argument σ není zadaný, funkce použje výběrovou směrodatnou odchylku vstupního pole hodnot (Obr..1) Obrázek.1 P-hodnota (sgnfkance) je větší než hladna významnost α: p=0,885>0,05=α, tedy přjímáme nulovou hypotézu. Pomocí funkce =NORMSINV(prst) můžeme z čísla p zpětně dopočítat testové krtérum (Obr..) - 3 -

Testování hypotéz Obrázek..1. TEST STŘEDNÍ HODNOTY, KDYŽ NENÍ ZNÁMÉ Test střední hodnoty, když σ neznáme, můžete provádět v případě, že testujete hodnoty velkého vzorku (n>30), nebo menší vzorek pochází z výběru z normálního rozdělní. Postup testování: ŘEŠENÝ PŘÍKLAD. 1. Stanovení hypotézy: H 0 :μ=μ 0 H 1 :μ μ 0 x. n. Testové krtérum: T 0 s 3. Obor přjetí: 0, t 1( ), krtcký obor: ( t 1( ), ), kde t n1 ( ) n je krtcká hodnota Studentova t-rozdělení 4. Výsledek Automat na plnění ltrových lahví je podle výrobce seřízen tak, že střední hodnota objemu naplněných lahví je 1000 ml. Kontrola jakost 5 naplněných lahví ukázala, že průměrný objem náplně byl 998 ml se směrodatnou odchylkou 5 ml. Je automat seřízený správně? Testujte na hladně významnost 0,05, předpokládejte normální rozdělení základního souboru. Řešení: Postup testování: 1: H 0 :μ=1000 H 1 :μ 1000 n x 0. n 998 1000. 5 : Testové krtérum: T s 5 3: Krtckou hodnotu t n-1 (α) pro 4 stupňů volnost vypočítáme pomocí funkce =TINV(0,05;4)=t 4 (0,05)=,06. Obor přjetí: 0,, 06, krtcký obor: (,06, ) 4: Výsledek: Na hladně významnost 0,05 nemůžeme zamítnout nulovou hypotézu a tedy automat je seřízený správně. - 4 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy.1.1 TEST PRO ROZPTYL NÁHODNÉ VELIČINY Předpokládáme, že z normálně rozděleného základního souboru byl proveden náhodný výběr o rozsahu n. Postup testování: 1. Stanovení hypotézy: H 0 :σ =σ 0 H 1 :σ σ 0 ( n 1). s. Testové krtérum: T 3. Obor přjetí: (1 ), ( ), krtcký obor: ( n 1) ( n1) 0 0, (1 ) ( ),, kde ( ) ( n 1) ( n1) ( n jsou krtcké hodnoty 1) rozdělení. 4. Výsledek ŘEŠENÝ PŘÍKLAD.3 Automat na plnění ltrových lahví je podle výrobce seřízen tak, že rozptyl objemu náplně je 5 ml. Kontrola jakost 5 naplněných lahví ukázala, že výběrový rozptyl vzorku je 8 ml. Je automat seřízený správně? Testujte na hladně významnost 0,05, předpokládejte normální rozdělení základního souboru. Řešení: Postup testování: 1: H 0 :σ =5 H 1 :σ 5 (5 1).8 : Testové krtérum: T 6, 88 5 3: Krtcké hodnoty vypočítáte pomocí funkce CHIINV: (0,975) =CHIINV(0,975; 4)=1,40 a 4(0,05) =CHIINV(0,05;5)=39,36. Potom obor přjetí je 1,40, 39,36, a krtcký obor 0, 1,40 39,36, 4: Výsledek: Hodnota testového krtéra padne do oboru přjetí, proto přjímáme nulovou hypotézu na hladně významnost 0,05 a tedy automat je seřízený správně (s rzkem 5% chybného závěru). 4. NEPARAMETRICKÉ TESTY Tato část se zabývá dvěma neparametrckým testy založeným na tzv. chí-kvadrát rozdělení: testem dobré shody a testem nezávslost (v kontngenční tabulce). Pro oba testy se předpokládá znalost četností výskytu daného znaku ve vzorku, oba testy používají podobné testové krtérum. Prncpem neparametrckých testů dobré shody je porovnávání četností výskytů náhodného znaku n s teoretckým (deálním) hodnotam ψ. Tyto deální hodnoty se dají získat z předpokládané pravděpodobnost daného jevu p. Pro test nezávslost bude uveden postup, jak se test provádí pro jž sestavenou kontngenční tabulku a také postup, jak sestrojt kontngenční tabulku v případě, že data jsou zadaná v jné podobě. - 5 -

Testování hypotéz..1 TEST DOBRÉ SHODY Pro (Pearsonův) test dobré shody předpokládáme to, že výsledky lze uspořádat do J nepřekrývajících se tříd. Četnost výskytů v jednotlvých třídách značíme n1, n, nj, celkový rozsah náhodného výběru je n. Testovaná hypotéza spočívá v předpokladu určtého modelu pravděpodobnostního rozdělení, tedy předpokladu pravděpodobností pro každou třídu p1, p, p J, součet všech pravděpodobností musí být 1. Test dobré shody spočívá v porovnání naměřených (emprckých) četností s četnostm teoretckým. Teoretcké četnost 1,, J získáte jako součn odpovídající pravděpodobnost a rozsahu náhodného výběru: p. n Postup testování: 1: Stanovení hypotézy: H 0 : p 1 =π 1, p =π, p J =π J, (dobrá shoda) H 1 : ; (negace H 0 ) : Testové krtérum: G J ( 1 n ) 3: Obor přjetí: 0, J 1 ( ), krtcký obor: ( J 1( ), ) 4: Výsledek V Excelu lze krtckou hodnotu získat pomocí funkce =CHIINV(Pravděpodobnost;Volnost), například =CHIINV(0,05;)=5,991476. Další funkce programu Excel, funkce =CHITEST(Aktuální;Očekávané) vám umožní spočítat pravděpodobnost odpovídající hodnotě testového krtéra pro χ rozdělení. Argumenty funkce CHITEST jsou naměřené, aktuální hodnoty n a pak teoretcké, očekávané hodnoty ψ. Testové krtérum získáte z pravděpodobnost p pomocí funkce =CHIINV(Pravděpodobnost;Volnost). p ŘEŠENÝ PŘÍKLAD.4 Před volbam do akademckého senátu byl odhad volebních preferencí pro kanddáta A 8 %, pro kanddáta B 3 % a pro kanddáta C 40 %. V prvním kole voleb získal kanddát A 51 hlasů, kanddát B 74 hlasů a kanddát C 75 hlasů. Na hladně významnost 0,05 zjstěte, zda byly odhady předvolebních preferencí konzstentní s výsledkem voleb. Řešení: V následující tabulce je přehled zadání a výpočet teoretckých hodnot. Celkový počet pozorování je n=00. Četnost výskytu Teoretcká pravděpodobnost Teoretcká četnost n p ψ = p.n 51 0,8 56 74 0,3 64 75 0,40 80-6 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Postup testování: 1. Stanovení hypotézy: H 0 :p 1 =0,8, p =0,3, p 3 =0,4, (dobrá shoda) H 1 : negace H 0.. Testové krtérum: J ( n ) (51 56) (74 64) (75 80) G 1 56 64 80 5 100 5,3 56 64 80 3. Obor přjetí: 0, 6, krtcký obor: ( 6, ) 4. Výsledek: Testové krtérum leží v oboru přjetí. Přjímáme nulovou hypotézu. Odhady předvolebních preferencí byly konzstentní s výsledkem voleb. Funkce =CHITEST(Aktuální,Očekávané) vám umožní spočítat pravděpodobnost odpovídající hodnotě testovacího krtéra pro χ rozdělení. V našem příkladě je pravděpodobnost p=0,3133 a je tedy větší, než zadaná hladna významnost α=0,05 a tedy přjímáme nulovou hypotézu o dobré shodě předpokladu s výsledkem (Obr..3). Testové krtérum získáte z pravděpodobnost p pomocí funkce =CHIINV(Pravděpodobnost;Volnost), které argumenty budou pravděpodobnost a počet stupňů volnost. Zkontrolujte s, že =CHIINV(0,3136;)=,3. Obrázek.3.. TEST NEZÁVISLOSTI KVALITATIVNÍCH ZNAKŮ Typckou úlohou, k jejímuž řešení se často používá test dobré shody, je ověření nezávslost dvou (nebo více) kvaltatvních znaků. Jejch hodnoty byly zjštěny u n náhodně vybraných prvků základního souboru, nebo, obecněj řečeno, jde o výsledky n nezávslých náhodných pokusů. Výsledky jsou pak pro přehlednost zpracování uspořádány v tzv. kontngenční tabulce. V jednom expermentu můžeme současně sledovat dvě nebo více odpovědí - hodnoty kvaltatvních znaků. Tak například př kontrole jakost výrobku můžeme sledovat přítomnost nebo nepřítomnost vady A (znak A), nebo přítomnost nebo nepřítomnost vady B (znak B). - 7 -

Testování hypotéz Oba znaky A B nabývají pouze dvě alternatvní hodnoty - kategore: např. Ano, Ne (Přítomnost, Nepřítomnost, apod.). Př psychologcké zkoušce způsoblost osoby k výkonu určté čnnost může testovaná osoba dostat dva úkoly, jejchž výsledek může být hodnocen jako "vynkající", "průměrný" a "podprůměrný". Zde jde o sledování dvou kvaltatvních znaků se třem kategorem odpovědí. Představte s nyní n nezávslých opakování expermentu se dvěma kvaltatvním znaky A a B. Znak A má r možných kategorí hodnot, značených A 1, A,..., A r, znak B má s možných kategorí hodnot B 1, B,..., B s. Výsledek celého složeného expermentu lze shrnout do kontngenční tabulky: Kategore znaku A/B B 1 B B 3. B s Margnální součty A 1 n 1,1 n 1, n 1,3. n 1,s n 1,. A n,1 n, n,3. n,s n,. A 3 n 3,1 n 3, n 3,3. n 3,s n 3,....... A r n r,1 n r, n r,3. n r,s n r,. Margnální součty n.,1 n., n.,3 n.,s Celkový součet n Počet kategorí znaku A je r a toto číslo současně označuje počet řádků tabulky. Počet kategorí znaku B je s a označuje počet sloupců tabulky. Celkový počet pozorování je n. Test nezávslost má smysl provádět, když je každá z četností n,j je alespoň 5. Teoretcké četnost jsou hodnoty, které by byly v tabulce, kdyby oba znaky byly nezávslé a současně by margnální četnost zůstaly stejné jak u emprckých hodnot. Teoretcké hodnoty se vypočítají ze vztahu: n,. n, j, j n Výsledná tabulka teoretckých četností bude mít tvar: Kategore znaku A/B B 1. B s Margnální součty n n 1,. n, 1 1,. n 1,1, s 1, s A 1 n. n n 1,. n,. n, 1 n,1,. n, s, s A n. n n,..... n r,. n,1 n r,1 r,. n, s r, s n. n n r,. A r Margnální součty n.,1. n.,s Celkový součet n Po vytvoření tabulky teoretckých hodnot můžete přstoupt k testu, který je podobný jako v předchozím případě. - 8 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Postup testování: 1: Stanovení hypotézy: H 0 : p,j =p,..p.j =1, r; j=1, s, (nezávslost znaků) H 1 : negace H 0 J ( n : Stanovení hypotézy: Testové krtérum: G ) 3: Stanovení hypotézy: Obor přjetí: 0, ( r 1).( s1) ( ), krtcký obor: ( ( r 1).( s1) ( ), ) 4: Stanovení hypotézy: Výsledek zda hodnota testového krtéra leží v krtckém oboru: Nulovou hypotézu zamítáme/přjímáme, co to konkrétně znamená. 1 ŘEŠENÝ PŘÍKLAD.5 Vysoká škola zjšťovala, zda exstuje závslost mez výsledky studa z předmětů matematka a mkroekonome. Do výzkumu zahrnula 100 studentů druhých ročníků, kteří měl obě zkoušky za sebou. Výsledky jsou uspořádány v následující kontngenční tabulce (Obr..4): Obrázek.4 Na hladně významnost α=0,05 stanovte, zda exstuje závslost mez výsledky těchto dvou předmětů. Řešení: Po zjštění margnálních četnost pro řádky a sloupce lze vypočítat teoretcké hodnoty, které budou vypadat následovně (Obr..5): - 9 -

Testování hypotéz Obrázek.5 Postup testování: 1: Stanovení hypotézy: H 0 : nezávslost výsledků matematky a mkroekonome H 1 : negace H 0 : Testové krtérum: J ( n ) (7 5,) (5 7) (8 7,8) (5 7,8) G 5, 7 7,8 7,8 1 (11 9,8) 9,8 (1 10,9) 10,9 (14 13,5) 13,5 (19 18,) 18, (19 0,8),3 0,8 3: Obor přjetí: 0, 9, 49, krtcký obor: ( 9,49, ) 4: Výsledek: Testové krtérum leží v oboru přjetí, přjímáme hypotézu nezávslost kvaltatvních znaků. Výsledky z matematky a mkroekonome jsou na sobě nezávslé. V programu Excel krtckou hodnotu získáte pomocí funkce =CHIINV(Pravděpodobnost;Volnost), pro zadaný příklad je počet stupňů volnost df=4, a tedy krtcká hodnota =CHIINV(0,05;4)=9,488. Funkce =CHITEST(Aktuální,Očekávané) vám umožní vypočítat pravděpodobnost odpovídající hodnotě testového krtéra pro χ rozdělení. Teoretcké emprcké hodnoty jsou zadávány ve formě tabulky s r řádky a s sloupc. V tomto příkladě je P-hodnota p=0,6807, je tedy větší než zadaná hladna významnost α=0,05. Přjímáme nulovou hypotézu, výsledky předmětů matematky a fyzky jsou nezávslé. Testové krtérum získáte z pravděpodobnost p pomocí funkce CHIINV. Zkontrolujte s, že =CHIINV(0,6807;4)=,3004..3 KONTINGENČNÍ TABULKY Častokrát se stane, že výsledky výzkumu, expermentu, nebo dotazníku, pro které lze aplkovat test nezávslost pro některé dvojce znaků, nejsou zadány přímo ve formě kontngenční tabulky, ale ve formě kategorí pro každou položku zvlášť. Z takto získaných dat lze pomocí tabulkového procesoru Excel vytvořt kontngenční tabulku, kterou dále můžete využít. Nástroj na vytvoření kontngenční tabulky naleznete v menu Vložení položka - 30 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Kontngenční tabulka. Vytvoření kontngenční tabulky je vysvětleno v následujícím příkladu. ŘEŠENÝ PŘÍKLAD.6 Vysoká škola zkoumala, jak spolu souvsí výsledky v předmětech matematka, mkroekonome, makroekonome, dále pohlaví studenta a typ střední školy na které student maturoval (gymnázum G, střední škola S, učlště-u). Pro tento výzkum byl studentům předložen anonymní dotazník, výsledky z dotazníku jsou uvedeny v následující tabulce. Každý řádek odpovídá jednomu vyplněnému dotazníku. Sestavte kontngenční tabulku tak, aby a) v řádcích byl výsledek z matematky a v sloupc z mkroekonome. b) v řádcích bylo rozdělení podle školy a ve sloupcích výsledek z makroekonome. Student číslo Matematka Mkroekonome Makroekonome Muž/Žena Škola Počet 1 1 1 1 M G 1 Z S 1 3 3 3 3 M S 1 4 1 1 3 M S 1 5 1 1 Z U 1 6 3 Z G 1 7 1 3 Z U 1 8 3 Z S 1 9 3 3 1 Z S 1 10 3 1 Z S 1 11 3 3 Z G 1 1 3 3 3 Z G 1 13 3 1 1 Z G 1 14 3 1 1 Z G 1 15 3 Z U 1 16 Z U 1 17 3 3 Z S 1 18 3 1 Z S 1 19 1 1 1 M S 1 0 1 M S 1 1 3 Z G 1 3 3 Z G 1 3 3 3 1 Z U 1 4 3 3 Z S 1 5 3 1 3 M S 1 6 1 M S 1 7 1 Z S 1 8 1 3 Z G 1 9 1 1 Z G 1 30 1 Z G 1 Řešení: K tabulce je přdaný sloupec Počet, který určuje kolk osob vysthuje jeden dotazník. Pro zjednodušení lze totž zapsat dotazníky se stejným vyplněním jedenkrát a označt počet - 31 -

Testování hypotéz takto vyplněných dotazníků. V uvedené tabulce jsou vyplněny všechny dotazníky zvlášť, proto u každého z nch má položka Počet hodnotu 1. Celkový počet dotazníků je 30. Pro vytvoření kontngenční tabulky v menu Vložení zvolíte položku Kontngenční tabulka (Obr..6): Obrázek.6 Otevře se dalogové okno, ve kterém vyznačíte oblast dat, kterou budete používat a požadované umístění kontngenční tabulky nejlépe na nový lst (Obr..7). Obrázek.7 V novém lstu se na pravé straně otevře seznam polí kontngenční tabulky. Nejpřehlednější je uspořádání Část pole a část oblast na sebe, tedy uspořádání, které je na Obr..8. - 3 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Obrázek.8 Do polí Popsky sloupců, Popsky řádků a Hodnoty postupně přetáhneme pole Mkroekonome, Matematka, a Počet (Obr..9). - 33 -

Testování hypotéz Obrázek.9 V souboru se vytvořla tabulka, která má tvar (Obr..10): Obrázek.10 Pro lepší přehled je dobré přejmenovat položku Popsky sloupců na Mkroekonome a Popsky řádků na Matematka. Výsledná kontngenční tabulka bude mít tvar (Obr..11): Obrázek.11-34 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Podobně přpravíte řešení příkladu b); do polí Popsky sloupců, Popsky řádků a Hodnoty postupně přetáhneme pole Makroekonome, Škola, a Počet. (.9). Popsky sloupců přejmenujeme na Makroekonome a Popsky řádků na Škola. Výsledná kontngenční tabulka bude mít tvar (Obr..1) Obrázek.1.3 PŘÍKLADY K PROCVIČENÍ PŘÍKLAD.1 Automat na plnění jogurtů do kelímků byl podle výrobce seřízen tak, že střední hodnota objemu naplněných kelímků je 00 ml. Kontrola jakost 16 naplněných kelímků ukázala, že průměrný objem náplně byl 00,1 ml se směrodatnou odchylkou 1 ml. a) Je automat seřízený správně? Testujte na hladně významnost 0,01. b) Jak by se změnl výsledek testu z bodu a), kdyby byla výrobcem zadaná (populační) směrodatná odchylka 0,5 ml? c) Na hladně významnost 0,01 testujte, zda je velkost rozptylu rovna výrobcem zadané hodnotě 0,5. PŘÍKLAD. Dodavatel slíbl, že dodávka bude obsahovat 70% výrobků 1. jakost, 0% druhé jakost a 10% jakost třetí. Př kontrole dodávky kontroloř náhodně vybral 100 výrobků a zjstl, že 75 kusů je 1. jakost, 10 kusů je. jakost a 15 kusů je jakost třetí. Na hladně významnost 0,05 zjstěte, zda dodavatel dodržel smlouvu. - 35 -

Testování hypotéz PŘÍKLAD.3 Př výzkumu spokojenost občanů s úrovní služeb ve městě byly obdrženy výsledky, vz dále tabulka. Na hladně významnost 0,01 testujte, zda postoj občanů ke stavu služeb závsí na jejch pohlaví. Muž Žena Spokojenost 35 58 Nespokojenost 4 15.4 ŘEŠENÍ PŘÍKLADŮ ŘEŠENÍ PŘÍKLADU.1 a) 1. H 0 :μ=00 H 1 :μ 00. Testové krtérum: T=0,4 3. Obor přjetí: 0,, 95, krtcký obor: (,95, ) 4. Výsledek: Na hladně významnost 0,01 nemůžeme zamítnout nulovou hypotézu a tedy automat je seřízený správně. b) 1. H 0 :μ=00 H 1 :μ 00. Testové krtérum:t=0,8 3. Obor přjetí: 0 ;, 58, krtcký obor: (,58 ; ) 4. Výsledek: Hodnota testového krtéra padne do oboru přjetí a proto na hladně významnost 0,01 přjímáme nulovou hypotézu a automat je seřízený správně. Výsledek se nezmění. c) 1. H 0 :σ =0,5 H 1 :σ 0,5. Testové krtérum: T=60 3. Obor přjetí: 4,601, 3, 801, 4. Hodnota testového krtéra padne do krtckého oboru a proto zamítáme nulovou hypotézu na hladně významnost 0,01 a tedy automat není seřízen správně. ŘEŠENÍ PŘÍKLADU. Výsledná tabulka obsahuje všechny požadované nformace s popsem (Obr. 1.1). Obrázek.13 Test: 1. Stanovení hypotézy: H 0 :p 1 =0,7, p =0,, p 3 =0,1, (dobrá shoda) H 1 : negace H 0. - 36 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy. Testové krtérum: J ( G 1 ) (75 70) 70 5 100 5 7,857 70 0 10 3. Obor přjetí: 0, 6, krtcký obor: ( 6, ) n (10 0) 0 (15 10) 10 4. Výsledek: Hodnota testového krtéra padne do krtckého oboru. Zamítáme hypotézu dobré shody vzorku s předpokladem. Dodavatel nedodržel smlouvu. ŘEŠENÍ PŘÍKLADU.3 1: Stanovení hypotézy: H 0 : nezávslost výsledků na pohlaví respondentů H 1 : negace H 0 : Testové krtérum: G 18, 38 3: Obor přjetí: 0, 6, 63, krtcký obor: ( 6,63, ) 4: Testové krtérum leží v krtckém oboru, zamítáme hypotézu o nezávslost kvaltatvních znaků. Názory respondentů jsou závslé na jejch pohlaví..5 PŘÍPADOVÉ STUDIE PŘÍPADOVÁ STUDIE.1 Zdravotní pojšťovna zkoumala vzájemnou souvslost čtyř chronckých nemoc chroncká bronchtda (A), dabetes (B), astma (B) a hypertenze (C). Oslovla proto náhodně 50 pacentů ve věku do 60 let s alespoň jednou se zmíněných nemocí a zjšťovala, zda jsou u nch přítomny také další nemoc ze seznamu. Výsledky jsou zapsány v následující tabulce. Každý řádek odpovídá jednomu vyplněnému dotazníku. Na hladně významnost 0,05 zjstěte, zda exstuje souvslost mez hypertenzí a dabetem, a mez bronchtdou a astmatem. A B C D Ano Ne Ano Ne Ne Ano Ano Ano Ano Ne Ano Ano Ano Ano Ne Ano Ano Ne Ano Ne Ano Ano Ano Ano Ne Ne Ne Ne Ano Ano Ne Ano Ano Ano Ne Ne Ne Ne Ne Ne Ano Ano Ano Ano Ne Ne Ano Ano - 37 -

Testování hypotéz Ano Ne Ne Ne Ano Ano Ne Ano Ne Ne Ano Ne Ano Ano Ne Ano Ne Ne Ne Ano Ano Ne Ne Ano Ne Ano Ne Ne Ano Ano Ano Ano Ne Ano Ne Ne Ano Ne Ne Ano Ne Ano Ano Ano Ano Ano Ne Ne Ne Ne Ano Ne Ne Ne Ne Ano Ano Ne Ano Ne Ne Ne Ano Ano Ano Ne Ano Ano Ano Ne Ne Ano Ne Ano Ne Ne Ano Ano Ne Ne Ano Ano Ano Ano Ne Ne Ne Ne Ano Ano Ne Ano Ne Ne Ano Ne Ano Ne Ne Ne Ne Ano Ano Ano Ne Ne Ne Ano Ano Ano Ne Ano PŘÍPADOVÁ STUDIE.1 Agentura pro výzkum veřejného mínění zkoumala, zda exstuje souvslost mez vzděláním respondentů (ZŠ, SŠ, VŠ), jejch rodnným stavem (svobodný, v manželském svazku), preferencí poltcké strany (pravce, levce) a pohlavím respondentů). Výsledky jsou zapsány v následující tabulce. Jeden řádek odpovídá jednomu vyplněnému dotazníku. Na hladně významnost 0,05 zjstěte, zda exstuje souvslost mez preferencí poltcké strany a vzděláním, rodnným stavem a pohlavím. Strana Vzdělání Stav Pohlaví Levce ZŠ M M Levce SŠ S Ž Pravce VŠ M Ž Levce ZŠ M M Pravce SŠ M M Levce VŠ S M Levce SŠ S Ž Levce VŠ S Ž Pravce VŠ M M - 38 -

Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy Levce SŠ M M Levce e ZŠ S M Levce SŠ M M Pravce SŠ M Ž Levce SŠ M Ž Levce VŠ M M Pravce VŠ M Ž Pravce VŠ M M Pravce SŠ S Ž Levce e SŠ S M Levce ZŠ S Ž Pravce SŠ M Ž Levce SŠ M Ž Levce ZŠ M Ž Pravce SŠ M M Pravce VŠ S M Pravce SŠ S M Levce e ZŠ M M Levce SŠ M M Pravce SŠ S M Levce VŠ S Ž Levce ZŠ M Ž Pravce VŠ M Ž Pravce VŠ M Ž Pravce SŠ M M Levce SŠ M M Levce SŠ S M Pravce SŠ M Ž Pravce SŠ M Ž Pravce SŠ S Ž Levce VŠ S Ž Levce SŠ S M Pravce SŠ M M Pravce SŠ M Ž Pravce VŠ M Ž Levce SŠ M M Levce SŠ M Ž Pravce SŠ M M Pravce VŠ M Ž Pravce SŠ M M Levce SŠ M Ž - 39 -