a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily



Podobné dokumenty
Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

6. T e s t o v á n í h y p o t é z

Poznámky k předmětu Aplikovaná statistika, 9.téma

VŠB Technická univerzita Ostrava

Cvičení 12: Binární logistická regrese

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Masarykova univerzita v Brně APLIKOVANÁ STATISTIKA I

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Dynamické metody pro predikci rizika

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

KGG/STG Statistika pro geografy

4ST201 STATISTIKA CVIČENÍ Č. 7

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Cvičení ze statistiky - 9. Filip Děchtěrenko

12. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Zápočtová práce STATISTIKA I

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

NEPARAMETRICKÉ TESTY

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Biostatistika a matematické metody epidemiologie- stručné studijní texty

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Regresní a korelační analýza

Minimální hodnota. Tabulka 11

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

1. Pravděpodobnost a statistika (MP leden 2010)

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Univerzita Pardubice Fakulta Ekonomicko- správní. Testy hypotéz s využitím programu MS EXCEL. Tomáš Borůvka

Cvičení 9: Neparametrické úlohy o mediánech

Národníinformačnístředisko pro podporu jakosti

Analýza rozptylu dvojného třídění

KGG/STG Statistika pro geografy

VŠB Technická univerzita Ostrava

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

Tomáš Karel LS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 8

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

VŠB Technická univerzita Ostrava BIOSTATISTIKA

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

KORELACE. Komentované řešení pomocí programu Statistica

Robust ledna 5. února 2010, Králíky

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

INDUKTIVNÍ STATISTIKA

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

PROJEKT DO STATISTIKY PRŮZKUM V TECHNICKÉ MENZE

Protokol č. 1. Tloušťková struktura. Zadání:

Korelace. Komentované řešení pomocí MS Excel

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

KOMENTOVANÁ ANALÝZA VÝSLEDKŮ

Vzorová prezentace do předmětu Statistika

Přílohy. Spotřeba elektřiny. Model závislosti spotřeby elektřiny

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

MULTIFAKTOROVÁ ANALÝZA DOPRAVNÍ NEHODOVOSTI

12. cvičení z PST. 20. prosince 2017

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Porovnání dvou výběrů

Regresní analýza 1. Regresní analýza

Příloha č. 3. Kombinační třídění

Jednofaktorová analýza rozptylu

Příloha CD: Testování hypotéz 1

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

= = 2368

Korelační a regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Příloha č. 1 Odpovědi na anketní otázku

Tomáš Karel LS 2012/2013

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Charakteristika datového souboru

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA

Matematická statistika

17. Statistické hypotézy parametrické testy

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Příklady na testy hypotéz o parametrech normálního rozdělení

22. Pravděpodobnost a statistika

Ilustrační příklad odhadu LRM v SW Gretl

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Transkript:

Testování hypotéz Testování hypotéz jsou klasické statistické úsudky založené na nějakém apriorním předpokladu. Vyslovíme-li předpoklad o hodnotě neznámého parametru nebo o zákonu rozdělení sledované náhodné veličiny, vyslovíme tak statistickou hypotézu. Ověřování, zda hypotéza platí či nikoliv, je předmětem testování, které provádíme na základě nějakého výběru (měření, pozorování). Test statistické hypotézy H proti alternativní hypotéze A je pravidlo, podle něhož na základě náhodného výběru rozhodneme mezi dvěma tvrzeními - sledovanou hypotézou H a alternativní hypotézou A. Výsledkem našeho rozhodování je buď zamítnutí hypotézy H ve prospěch alternativy A či její nezamítnutí. Skutečnost, že hypotézu nezamítáme, neznamená že naměřená data tuto hypotézu potvrzují, ale pouze to, že ji nevyvracejí. Ve většině programů je testovaná hypotéza označovaná jako nulová hypotéza H a alternativní hypotéza H 1 nebo H A. Při testování hypotéz se můžeme dopustit chyby dvěma způsoby: Buď zamítneme hypotézu, která platí - to je chyba prvního druhu α - nebo naopak tuto hypotézu nezamítneme i když je nesprávná - v tomto případě se jedná o chybu druhého druhu β. Při konstrukci testu požadujeme, aby pravděpodobnost chyby 1. druhu byla menší nebo rovna danému číslu α, kterému říkáme hladina významnosti testu. Obvykle volíme α =,5 nebo,1. Testování probíhá tak, že vypočítáme hodnotu testové statistiky, porovnáme ji s kritickými hodnotami, odpovídajícími hladině významnosti α, a rozhodneme o zamítnutí či nezamítnutí hypotézy H. Při testování pomocí statistických programů se používá jiný postup: Spočte se hodnota testové statistiky a k ní nejmenší kritický obor, při kterém bychom ještě mohli na základě této hodnoty zamítnout hypotézu H proti dané alternativě. Hladina významnosti, odpovídající tomuto kritickému oboru, se nazývá minimální hladina významnosti (p-hodnota). Pokud je p > α, pak hypotézu H nezamítáme.v opačném případu, kdy p α, pak hypotézu H zamítáme.

Příklad 1 O hodinových výdělcích taxikářů dvou měst máme k dispozici údaje ze dvou náhodných výběrů, které jsou uvedeny v tabulce 1. Proveďte základní statistické vyhodnocení a ověřte na 5% hladině významnosti tvrzení, že dlouhodobý průměr výdělků taxikářů je v obou městech stejný. Tab.1 Hodinové výdělky taxikářů 1. město: 68 133 144 16 154 175 141 148 75 5 13 151 199 134 183 137 127 11 157 119 112 115 88 168 142 13 135 115 195 133 15 82 78 143 85 85 179 124 113 97 8 84 135 99 116 133 118 2 145 165 123 155 131 98 148 44 125 82 11 111 2. město: 148 127 174 132 125 139 158 14 18 146 125 154 167 132 128 127 111 134 111 118 15 15 19 112 114 133 115 81 132 112 148 162 124 159 198 134 134 157 18 158 73 137 154 138 168 151 136 117 14 141 171 148 145 151 14 113 147 146 15 141 128 167 152 131

Řešení pomocí Statistica 7. a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily Taxi1 Taxi2 N platných Průměr Medián Modus Min Max Rozptyl Sm. odch. 6 123,85 124,5 133, 44 2 1223,6 2 64 135,2 135, Vícenás. 73 198 58,89 5 34,98 22,55 b) Grafické ověření normality dat Protože se při odvozování intervalů spolehlivosti i testů hypotéz předpokládá normální rozdělení výběrového souboru, měli bychom vždy tento předpoklad ověřit. Nesplnění předpokladu normality dat, vede k přibližným a někdy i chybným řešením. Grafy: 2D grafy: Krabicové grafy: Vícenásobné

Grafy: 2D grafy: Histogramy: Typ proložení normální c) Testy normality Statistika: Základní statistika a tabulky: Popisné statistiky: Normalita: K-S, Shapiro-Wilksův W test Tabulka četností:taxi1 (taxi) K-S d=,4997, p>.2; Lilliefors p>.2 Shapiro- WilksW=,98863, p<,8535 Tabulka četností:taxi2 (taxi) K-S d=,5292, p>.2; Lilliefors p>.2 Shapiro- WilksW=,98626, p<,6988 Na základě údajů v tabulce c) nezamítáme hypotézu o normalitě obou výběrů.

d1) Test rovnosti rozptylů a Test rovnosti středních hodnot Statistika: Základní statistika a tabulky: t-test, nezávislé, dle proměnné T-test pro nezávislé vzorky (taxi) Pozn.: Proměnné byly brány jako nezávislé vzorky Taxi1 vs. Taxi2 Průměr Průměr Hodnota t 123,85 135,23 1-2,16124 12 2 sv p t separ. sv p,3263-2,1324 4 99,7727 8,3542 5 Taxi1 vs. Taxi2 Poč.plat. Poč.plat. Sm.odch. Sm.odch. F-poměr 6 64 34,983 22,55869 2,4446 9 p,73 5 V horní části tabulky najdeme opět hodnoty základních výběrových statistik: rozsah výběru, průměr a směrodatnou odchylku. Následuje hodnota testového kritéria = t-statistika = - 2,16124, počet stupňů volnosti = 122 a minimální oboustranná pravděpodobnost p =,3263 při které ještě zamítáme hypotézu o rovnosti středních hodnot. d2) V případě, kdy data nepocházejí z normálního rozdělení, použijeme neparametrické testy!!! POZOR!!! Jiná struktura dat (taxi2.sta) Statistika: Neparametrické statistiky: porovnání dvou nezávislých vzorků skupiny Mann-Whitneyův U test (taxi2) Dle proměn. Prom1 Označené testy jsou významné na hladině p <,5 Prom2 3315, Sčt poř. Sčt poř. U Z Úroveň p 4435, 1485, - 2,175,29631 Z Úroveň p N platn. N platn. 2*1str. Prom2-2,17533,2966 6 64,2947 V tabulky najdeme opět hodnoty základních výběrových statistik: tentokráte součet pořadí. Následuje hodnota testového kritéria = U = 1485, a minimální oboustranná pravděpodobnost p =,29631 při které ještě zamítáme hypotézu o rovnosti středních hodnot.

Závěr příkladu Protože vypočítaná dvoustranná pravděpodobnost p =.354 <,5 = α, zamítáme hypotézu H : µ 1 µ 2 = o rovnosti středních hodnot a s pravděpodobností,95 tvrdíme, že dlouhodobé průměrné výdělky taxikářů z uvedených měst jsou různé.

TESTOVÁNÍ NEZÁVISLOSTI NOMINÁLNÍCH VELIČIN Test nezávislosti χ 2 (chí-kvadrát), měření síly závislosti Cramérův koeficient. Tento koeficient nabývá hodnot mezi a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je, tím je tato závislost volnější V roce 195 zkoumali Yule a Kendall barvu očí a vlasů u 68 mužů. Barva očí Barva vlasů světlá kaštanová černá rezavá modrá 1768 87 18 47 šedá nebo zelená 946 1387 746 53 hnědá 115 438 288 16 Na asymptotické hladině významnosti,5 testujte hypotézu o nezávislosti barvy očí a barvy vlasů. Vypočtěte Cramérův koeficient. Simultánní četnosti znázorněte graficky. Návod: Vytvořte nový datový soubor o 12 případech a třech proměnných (OCI, VLASY, CETNOST). Do proměnné OCI napište varianty barvy očí x [1] = 1 (modrá), x [2] = 2 (šedá nebo zelená), x [3] = 3 (hnědá), přičemž každá varianta se objeví čtyřikrát pod sebou. Do proměnné VLASY napište třikrát pod sebe všechny varianty y [1] = 1 (světlá), y [2] = 2 (kaštanová), y [3] = 3 (černá), y [4] = 4 (rezavá). oci vlasy cetnost 1 modrá světlá 1768 2 modrá kaštanová 87 3 modrá černá 18 4 modrá rezavá 47 5 šedozelená světlá 946 1387 7 šedozelená černá 746 8 šedozelená rezavá 53 9 hnědá světlá 115 1 hnědá 438 11 hnědá černá 288 12 hnědá rezavá 2 Statistika: Základní statistika/tabulky: Kontingenční tabulky: Specifikace tabulky (List1-oci, List2-vlasy): OK: v (váhy) četnost: OK: Možnosti: zaškrtněte Pearson & M-L Chi -square, Phi & Cramer s V: Detailní výsledky: Detailní 2-rozm. tabulky Statist. : oci(3) x vlasy(4) (oci) 6 šedozelená kaštanová kaštanová Chíkvadr. Pearsonův chí-kv. 188,934 M-V chí-kvadr. 1157,153 sv df= 6 df= 6 p p=, p=,

Fí,43188 Kontingenční koeficient,3716458 Cramér. V,283681 Ve výstupní tabulce najdeme mj. hodnotu testové statistiky (Chi-square = 188,149) s počtem stupňů volnosti (df = 6) a odpovídající p-hodnotou (p =,) i Cramérův koeficient (V =,283). Pro grafické znázornění četností se vraťte do Detailní výsledky 3D histogram. Po vytvoření grafu je nutné manuálně zvětšit rozsah zobrazovaných hodnot na osách x a y. Pomocí STATISTIKY je možno lehce ověřit splnění podmínek dobré aproximace (tzn., že teoretické četností mají být aspoň v 8% případů větší než 5 a ve zbylých 2% případů nemají klesnout pod 2). Teoretické četnosti se vypočítají tak, že v Options zaškrtneme Oekávané četnosti. V našem případě jsou podmínky dobré aproximace splněny. Závěr: Existuje závislost mezi barvou očí a barvou vlasů

KORELAČNÍ KOEFICIENT Pracovník personálního oddělení jistého podniku zkoumá, zda existuje vztah mezi počtem dní absence v práci za rok a věkem pracovníka. Náhodně vybere záznamy o 1 pracovnících a získá údaje o jejich věku (znak X) a počtu dní absence za minulý rok (znak Y). X 27 61 37 23 46 58 29 36 64 4 Y 15 6 1 18 9 7 14 11 5 8 a) Vypočtěte koeficient korelace r a interpretujte ho. Řešení: Základní statistika a tabulky: Korelační matice: 1 seznam proměnné: Možnosti: Zobrazit r, p, N: Souhrn a) r = -,9325, p=, Označení korelace jsou významné. Červeně psané hodnoty p jsou statisticky významné. Závěr: Mezi věkem pracovníka a počtem dnů absence za minulý rok existuje silná nepřímá lineární závislost čím je pracovník starší, tím méně chybí v práci.