4ST201 STATISTIKA CVIČENÍ Č. 7



Podobné dokumenty
= = 2368

Testování hypotéz. 4. přednáška

PRAVDĚPODOBNOST A STATISTIKA

Cvičení ze statistiky - 9. Filip Děchtěrenko

Testování statistických hypotéz

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Jednostranné intervaly spolehlivosti

Testy statistických hypotéz

Aproximace binomického rozdělení normálním

12. cvičení z PST. 20. prosince 2017

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

STATISTICKÉ TESTY VÝZNAMNOSTI

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

STATISTICKÉ TESTY VÝZNAMNOSTI

Testy. Pavel Provinský. 19. listopadu 2013

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

MATEMATIKA III V PŘÍKLADECH

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Náhodné veličiny, náhodné chyby

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Tomáš Karel LS 2012/2013

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pravděpodobnost a aplikovaná statistika

Ing. Michael Rost, Ph.D.

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Příklady na testy hypotéz o parametrech normálního rozdělení

Testování statistických hypotéz

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování statistických hypotéz. Obecný postup

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Stručný úvod do testování statistických hypotéz

Tomáš Karel LS 2012/2013

Statistické metody uţívané při ověřování platnosti hypotéz

Testování statistických hypotéz

Cvičení ze statistiky - 8. Filip Děchtěrenko

5 Parametrické testy hypotéz

Neparametrické metody

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

2 ) 4, Φ 1 (1 0,005)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Zápočtová práce STATISTIKA I

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Porovnání dvou výběrů

NEPARAMETRICKÉ TESTY

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

STATISTICKÉ HYPOTÉZY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

Normální (Gaussovo) rozdělení

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

TECHNICKÁ UNIVERZITA V LIBERCI

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

TECHNICKÁ UNIVERZITA V LIBERCI

15. T e s t o v á n í h y p o t é z

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Úvod do analýzy rozptylu

15. T e s t o v á n í h y p o t é z

Jana Vránová, 3. lékařská fakulta UK

Charakteristika datového souboru

5. T e s t o v á n í h y p o t é z

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Normální (Gaussovo) rozdělení

Vzorová prezentace do předmětu Statistika

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Transkript:

4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické testy chí-kvadrát test dobré shody Testování statistických hypotéz Statistická hypotéza určitý předpoklad o parametrech či tvaru rozdělení Hypotézy se mohu týkat neznámých číselných parametrů rozdělení náhodné veličiny pak jde o testy parametrické. Ostatní typy jsou testy neparametrické. H0 nulová (testovaná) hypotéza hypotéza jejíž platnost ověřujeme; např. předpoklad že se průměr základního souboru rovná určité konkrétní hodnotě H1 alternativní hypotéza popírá nulovou hypotézu: Dvoustranná hypotéza - dvoustranný test Pravostranná hypotéza levostranná hypotéza - jednostranný test Chyba I. druhu = zamítnutí ve skutečnosti platné H0 Pravděpodobnost chyby I. druhu = α = hladina významnosti (volí se před provedením testu nejčastěji 01 005 001) Chyba II. druhu = nezamítnutí H0 ačkoliv ve skutečnosti platí H1 Pravděpodobnost chyby II. druhu = β; pravděpodobnost 1-β = síla testu CHYBA I. A II. DRUHU Závěr testu Skutečnost H0 platí H0 neplatí H0 platí OK (1-α) chyba I. druhu (α) H0 neplatí chyba II. druhu (β) OK (1-β) 1

Testové kritérium = statistika jejíž hodnotu vypočítáme na základě výběrových (napozorovaných) dat a podle jejíž hodnoty pak posuzujeme platnost testované hypotézy Obor hodnot testového kritéria se rozděluje na dva neslučitelné obory obor přijetí (V) a kritický obor (W) obory od sebe oddělují tzv. kritické hodnoty Rozhodnutí činíme podle toho jestli hodnota testového kritéria padne do kritického oboru W (zamítnutí H0) či do oboru přijetí V (nezamítnutí H0) Doporučený postup při testování hypotéz 1) Formulace výzkumné otázky ve formě nulové a alternativní statistické hypotézy (Jakého parametru se hypotéza týká?) 2) Zvolení přijatelné úrovně chyby rozhodování (volba hladiny významnosti α) 3) Volba testovacího kritéria (ve vzorcích podle typu vhodného testu) 4) Výpočet hodnoty testovacího kritéria 5) Určení kritických hodnot testovacího kritéria (určení krajních hodnot kritického oboru W vzorce) 6) Doporučení (nezamítnutí nebo zamítnutí nulové hypotézy H0) Test hypotézy o střední hodnotě Testujeme nulovou hypotézu proti jedné z alternativních hypotéz: : = : (oboustranná alternativní hypotéza) : > (pravostranná alternativní hypotéza) : < (levostranná alternativní hypotéza) Při volbě testového kritéria a kritického oboru opět rozlišujeme podle toho zda je rozptyl základního souboru známý a jak velký je rozsah výběru: a) Velký rozsah výběru rozptyl v základním souboru je známý o testovým kritériem je náhodná veličina = která má při platnosti nulové hypotézy rozdělení N(0;1) o kritický obor závisí na tvaru alternativní hypotézy a na zvolené hladině významnosti: ( ; > > < < < ( ; > b) Velký rozsah výběru rozptyl v základním souboru není známý o testovým kritériem je náhodná veličina = která má při platnosti nulové hypotézy rozdělení N(0;1) o kritické obory mají stejný tvar jako v případě známého rozptylu 2

c) Malý rozsah výběru rozptyl v základním souboru není známý o testovým kritériem je náhodná veličina = o která má při platnosti nulové hypotézy rozdělení t(n-1) kritické obory mají tvar: ( ; > > < < < ( ; > Př. 7.1 V pivovaru došlo k opravě plnící linky. Po opravě se provedlo měření u 21 naplněných lahví průměrný objem v naplněné lahvi byl 50036 ml se směrodatnou odchylkou 178 (jde tedy o výběrové hodnoty). Předpokládáme že jde o výběr z normálního rozdělení. Na hladině významnosti α = 005 ověřte zda se oprava zdařila tj. zda linka plní do láhví pivo o objemu 500ml. (Jinak řečeno chceme ověřit zda zjištěný průměr se významně liší od požadované hodnoty 500ml) Stanovte nulovou a alternativní hypotézu zvolte vhodné testové kritérium a kritické hodnoty; Jak se změní postup a výsledek pokud směrodatná odchylka objemu náplně je známa tedy nejde o hodnotu zjištěnou z výběru a její hodnota je 078? Test hypotézy o relativní četnosti velké výběry Testujeme nulovou hypotézu proti jedné z alternativních hypotéz: Testovým kritériem je náhodná veličina která má při platnosti nulové hypotézy rozdělení N(0;1). Kritické obory: : = : : > : < = () Př. 7.2 ( ; > Strana pronikne do sněmovny jestliže její volební výsledek překročí 5 %. Byl proveden průzkum kde z 350 dotázaných respondentů by sledovanou stranu volilo 28 lidí. Můžeme na hladině významnosti 1 % předpokládat proniknutí strany do sněmovny ve volbách? > < < < ( ; > 3

Test o shodě středních hodnot velké nezávislé výběry Testujeme nulovou hypotézu : = proti jedné z alternativních hypotéz: : : > : < Testovým kritériem je náhodná veličina = která má při platnosti nulové hypotézy rozdělení N(0;1) Kritické obory: Př. 7.3 ( ; > > < < < ( ; > Na základě zadaných dat otestujte na hladině významnosti 005 a 001 hypotézu že chlapci a dívky dosahují u průběžného testu stejných výsledků. Data k příkladu jsou v souboru vysledky.xlsx. Testování hypotéz v MS Excel MS Excel má funkce pro testování střední hodnoty test o relativní četnosti nikoliv o Funkce ZTEST (matice = oblast dat; x = testovaná hodnota; [sigma] = hodnota směrodatné odchylky v základním souboru pokud je známá) umožňuje test o střední hodnotě pro velké výběry. o Funkce TTEST (matice1 = oblast dat prvního výběru; matice2 = oblast dat druhého výběru; chvosty = volba zda jde o jednostranný (1) nebo dvoustranný test (2); typ = volba zda jde o párové výběry (1) nezávislé výběry se stejnými rozptyly (2) nezávislé výběry s různými rozptyly (3)) umožňuje test o shodě dvou středních hodnot využívá kvantily t-rozdělení protože neobsahuje předpoklad o dostatečně velkých výběrech (oba s rozsahem větším než 30). o Modul ANALÝZA DAT umožňuje test o shodě středních hodnot pomocí voleb: Dvouvýběrový t-test s rovností / nerovností rozptylů slouží k testování shody středních hodnot dvou nezávislých výběrů (používá kvantily t-rozdělení protože nepředpokládá velké výběry) Dvouvýběrový z-test na střední hodnotu slouží k testování shody středních hodnot dvou nezávislých výběrů které pocházejí z normálního rozdělení přičemž známe rozptyl v základním souboru. Dvouvýběrový párový t-test na střední hodnotu testuje shodu středních hodnot v párových výběrech. 4

Výstupem testu je tzv. p-hodnota je-li p-hodnota menší než zvolená hladina významnosti pak testovanou hypotézu zamítáme a je-li větší pak testovanou hypotézu nezamítáme. Zamítli bychom ji až na hladině významnosti která by se rovnala právě p-hodnotě. Je-li p-hodnota vyšší než zvolená hladina významnosti pak testovanou hypotézu nezamítáme. Př. 7.4 a) Uvažujte soubor deti.xlsx z příkladu 6.3. Testujte na hladině významnosti 005 že průměrná porodní hmotnost dítěte je 3 kg. Využijte funkci ZTEST. b) Vypočtěte příklad 7.3 v MS Excel pomocí funkce TTEST a pomocí modulu Analýza dat. Neparametrické testy Chí-kvadrát (χ 2 ) test dobré shody Co testujeme? porovnání výběrového rozdělení četností (tj. četností které jsme skutečně vypozorovali při Příklad využití Test náhodném výběru) a teoretického rozdělení četností (tj. četností které v základním souboru předpokládáme již před provedením náhodného výběru) Chceme ověřit teoretický předpoklad o poměrném zastoupení skupin v základním souboru např. předpokládáme že z narozených dětí je 485 % dívek a 515 % chlapců. Provedeme náhodný výběr a testujeme zda poměr narozených dívek a chlapců odpovídá našemu předpokladu. Chceme ověřit zda data která máme k dispozici vykazují normální rozdělení. Porovnáváme pak četnosti jednotlivých hodnot v našich datech s četnostmi kterých by jednotlivé hodnoty nabývaly v případě normálního rozdělení. nulová hypotéza říká že v konečném základním souboru roztříděném podle nějakého znaku do k skupin jsou podíly jednotlivých variant rovny číslům π 01 π 02 π 0k. alternativní hypotéza nulovou popírá H : π =π = = : 0 testové kritérium G porovnává výběrové a teoretické četnosti v každé skupině (počet skupin = k) a za předpokladu velkého výběru (teoretické četnosti alespoň větší než 5 v každé skupině) má přibližně chí-kvadrát rozdělení s ν = k-1 stupni volnosti. 5

Testovým kritériem je náhodná veličina: = kde jsou teoretické (předpokládané) absolutní četnosti v základním souboru a jsou empirické (skutečné) absolutní četnosti ve výběrovém souboru. Testové kritérium má při platnosti nulové hypotézy rozdělení 1. Kritický obor: =< 1 Př. 7.5 Při opakovaném házení hrací kostkou byly z 60 hodů zjištěny tyto výsledky: Hodnota (x i) 1 2 3 4 5 6 Četnost (n i) 9 8 11 12 9 11 Ověřte na hladině významnosti α = 001 že kostka je v pořádku tj. že má těžiště v geometrickém středu. Chí-kvadrát test dobré shody v MS Excel Funkce CHITEST (aktuální = skutečné napozorované četnosti očekávané = teoretické četnosti v případě nezávislosti) výstupem je opět p-hodnota. Při interpretaci výsledku pozor na význam nulové hypotézy. Nulová hypotéza říká že empirické rozdělení četností odpovídá předpokládanému rozdělení četností. 6