JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Podobné dokumenty
Jednovýběrové testy. Komentované řešení pomocí MS Excel

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica

Lineární regrese. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

= = 2368

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Popisná statistika. Komentované řešení pomocí MS Excel

12. cvičení z PST. 20. prosince 2017

Zápočtová práce STATISTIKA I

Charakteristika datového souboru

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Vzorová prezentace do předmětu Statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Aproximace binomického rozdělení normálním

KGG/STG Statistika pro geografy

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Testování statistických hypotéz. Obecný postup

Testování statistických hypotéz

Tomáš Karel LS 2012/2013

Regresní analýza 1. Regresní analýza

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Tomáš Karel LS 2012/2013

Cvičení ze statistiky - 8. Filip Děchtěrenko

4. Zpracování číselných dat

PRAVDĚPODOBNOST A STATISTIKA

Protokol č. 1. Tloušťková struktura. Zadání:

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování statistických hypotéz

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testy. Pavel Provinský. 19. listopadu 2013

Jednofaktorová analýza rozptylu

Testy statistických hypotéz

Cvičení ze statistiky - 9. Filip Děchtěrenko

STATISTICKÉ ODHADY Odhady populačních charakteristik

TECHNICKÁ UNIVERZITA V LIBERCI

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Pravděpodobnost a aplikovaná statistika

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Náhodné veličiny, náhodné chyby

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Testování statistických hypotéz

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Normální (Gaussovo) rozdělení

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

KGG/STG Statistika pro geografy

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

STATISTICKÉ TESTY VÝZNAMNOSTI

Regresní a korelační analýza

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Ing. Michael Rost, Ph.D.

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Jednostranné intervaly spolehlivosti

Stručný úvod do testování statistických hypotéz

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Průzkumová analýza dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Regresní a korelační analýza

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Statistická analýza jednorozměrných dat

TECHNICKÁ UNIVERZITA V LIBERCI

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

ADDS cviceni. Pavlina Kuranova

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

STATISTICKÉ TESTY VÝZNAMNOSTI

Plánování experimentu

Pearsonův korelační koeficient

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Transkript:

JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica

Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná statistika. Je to záznam koncentrace olova ve dvou potrubích v průběhu jednoho týdne (měřeno třikrát denně). Zajímá nás, zdali ve sledovaných potrubích nedochází k překročení povoleného limitu koncentrace olova.

Základní statistiky Statistiky Základní statistiky/tabulky Popisné statistiky Detailní výsledky Zvolíme Proměnné vybereme 1. a 2. potrubí OK A dále zaškrtneme Počet platn., Průměr a Směrodat. odchylka Výpočet Vidíme, že průměrná koncentrace v obou potrubích je menší než 10 µg/l. Budeme testovat, zda je tento rozdíl statisticky významný. Variabilita koncentrací v prvním potrubí je menší než variabilita ve druhém potrubí.

Ověření předpokladů střední hodnoty I Přidáme čtvrtou proměnnou (levým tlačítkem myši dvakrát klikneme na hlavičku čtvrtého sloupce Přidat případy nebo proměnné OK a pojmenujeme ji ) Limitní koncentrace: je konstantních 10 mg/l, abychom ji v grafu mohli zobrazit Vykreslíme graf naměřených koncentrací olova: Grafy Spojnice Vícenásobný, proměnné zvolíme 1., 2. potrubí a Limitní koncentrace

Ověření předpokladů střední hodnoty II V grafu vývoje naměřených koncentrací není patrný žádný trend. Lze tedy předpokládat, že střední hodnoty jednotlivých měření jsou v případě obou potrubí konstantní (tj. nezávisí na čase). Dále můžeme pozorovat, že naměřená koncentrace olova u obou potrubí v některých případech překročila limitní mez 10 µg/l. U druhého potrubí došlo k překročení častěji a o větší hodnoty než u prvního potrubí.

Ověření předpokladů rozptyly I Podíváme se, jak se chovají rezidua e i = X i തX každého potrubí: Statistiky Vícenásobná regrese Proměnné nezáv. prom. je Měření číslo a záv. prom. jsou postupně 1. a 2. potrubí OK OK Reziduální analýza Bodové grafy Předpovědi vs. rezidua 1,2 Předpovězené hodnoty vs. rezidua Závislá proměnná : 1. potrubí 1,5 Předpovězené hodnoty vs. rezidua Závislá proměnná : 2. potrubí 1,0 0,8 1,0 0,6 0,5 Rezidua 0,4 0,2 0,0-0,2-0,4-0,6-0,8-1,0 9,46 9,48 9,50 9,52 9,54 9,56 9,58 9,60 Předpov. hodnoty 0,95 Int.spol. Rezidua 0,0-0,5-1,0-1,5-2,0 9,76 9,78 9,80 9,82 9,84 9,86 9,88 9,90 9,92 9,94 9,96 9,98 10,00 Předpov. hodnoty 0,95 Int.spol.

Ověření předpokladů rozptyly II V grafech vývoje vypočítaných reziduí jednotlivých potrubí není patrný žádný systematický vývoj, tedy nedochází k výraznému růstu ani poklesu absolutních hodnot reziduí. Můžeme proto předpokládat, že rozptyly jednotlivých měření jsou v případě obou potrubí konstantní (tj. nezávisí na čase). Rezidua se jeví velmi náhodně a nesystematicky, což je důležité pro aplikaci jednovýběrových testů.

Ověření normality histogramy I Grafy Histogram Proměnné zvolíme 1. a 2. potrubí OK OK 6 Histogram z 1. potrubí 1. potrubí = 21*0,2*normal(x; 9,5295; 0,5009) 6 Histogram z 2. potrubí 2. potrubí = 21*0,5*normal(x; 9,8819; 0,8634) 5 5 4 4 Počet pozorování 3 2 Počet pozorování 3 2 1 1 0 8,4 8,6 8,8 9,0 9,2 9,4 9,6 9,8 10,0 10,2 10,4 10,6 10,8 0 8,0 8,5 9,0 9,5 10,0 10,5 11,0 11,5 12,0 1. potrubí 2. potrubí

Ověření normality histogramy II U druhého potrubí jsou rozdíly mezi relativními četnostmi a očekávanými pravděpodobnostmi (za předpokladu normality) poměrně malé a předpoklad normality je tedy oprávněný. V případě prvního potrubí jsou tyto rozdíly větší, ovšem vzhledem k relativně malému počtu pozorování to ještě nemusí nutně znamenat, že rozdělení koncentrací není normální. Potvrzují se naše předchozí zjištění o tom, že koncentrace ve druhém potrubí jsou ve srovnání s prvním potrubím o trochu vyšší a více rozptýlené. Výsledná podoba histogramu může být velmi citlivá na volbu intervalů (jsou-li naměřené hodnoty blízko hranicím intervalů, může i při malé změně hranic dojít k zásadní změně v histogramu). Protože je předpoklad normality klíčový, ověříme jej ještě pomocí tzv. Q Q grafů.

Ověření normality Q - Q grafy I Statistiky Vícenásobná regrese Proměnné nezáv. prom. je Měření číslo a záv. prom. jsou postupně 1. a 2. potrubí OK OK Reziduální analýza Normální p graf reziduí 2,5 Normální p-graf reziduí 2,5 Normální p-graf reziduí 2,0 2,0 1,5 1,5 1,0 1,0 Očekáv. normál. hodn. 0,5 0,0-0,5-1,0 Očekáv. normál. hodn. 0,5 0,0-0,5-1,0-1,5-1,5-2,0-2,0-2,5-1,0-0,8-0,6-0,4-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2-2,5-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 Rezidua - 1. potrubí Rezidua - 2. potrubí

Ověření normality Q - Q grafy II Q Q graf vykresluje empirické (naměřené) kvantily (osa X) vůči teoretickým (očekávaným) kvantilům (osa Y). Čím blíže jsou jednotlivé body červené ose 1.a 3. kvadrantu, tím lépe empirické rozdělení odpovídá teoretickému. Na rozdíl od histogramu zde nedochází ke zkreslení kvůli zařazení dat do intervalů, na druhou stranu Q Q graf neznázorňuje polohu ani variabilitu zkoumaných pozorování. V obou případech (první i druhé potrubí) jsou jednotlivé body velmi blízko červené ose 1. a 3. kvadrantu, což indikuje, že empirické rozdělení odpovídá rozdělení teoretickému. Můžeme tedy oprávněně předpokládat, že naměřené koncentrace u obou potrubí pochází z normálního rozdělení. To není velkým překvapením, protože chyby v měření se velmi často řídí normálním rozdělením.

Test o střední hodnotě (úloha A) I Podrobný popis a vzorce viz příslušný text. Statistiky Základní statistiky/tabulky t test, samost. vzorek OK Proměnné zvolíme 1. a 2. potrubí OK Test všech průměrů vůči zvolíme 10 OK Červeně se standardně zvýrazňuje dosažená hladina významnosti testu, tzv. p hodnota, je-li nejvýše 5 %. Zvýraznění pro jinou hodnotu lze udělat v Detailní výsledky p hodnota pro zvýraznění např. 1 % Protože p hodnotu Statistica uvádí pouze pro oboustranný test, je nutné ji v našem případě jednostranného testu vydělit dvěma!

Test o střední hodnotě (úloha A) II V případě prvního potrubí zamítáme H 0 : µ = 10 mg/l a přijímáme alternativní hypotézu H 1 : µ < 10 mg/l (p hodnota testu je 0,000346/2=0,000173). Naměřené koncentrace prokázaly, že střední koncentrace olova je nižší než stanovený limit 10 µg/l. Pravděpodobnost chybného závěru je dána hladinou významnosti, tj. 5 %. Spočítaná p hodnota (nejmenší hladina významnosti, na které lze H 0 zamítnout) 0,0173 % je hluboko pod 5 %, takže naměřené výsledky jsou velmi průkazné. V případě druhého potrubí nulovou hypotézu H 0 : µ = 10 mg/l ve prospěch alternativy H 1 : µ < 10 mg/l nezamítáme (p hodnota testu je 0,538/2=0,269). Naměřené výsledky jsou tedy neprůkazné a střední koncentrace olova nemusí být nižší než stanovený limit 10 µg/l. Nemusí to ale znamenat, že střední koncentrace je vyšší než limit (vždyť naměřený průměr je 9,88!, což je stále pod limitem). Pouze to znamená, že nemůžeme učinit žádný přesvědčivý závěr. Dosažená p hodnota 26,9 % výrazně převyšuje 5%, tudíž výsledky jsou velmi neprůkazné. Ve srovnání s prvním potrubím jsou totiž naměřené hodnoty koncentrace o něco vyšší (průměr je blíže limitu). Je zde i vyšší variabilita naměřených dat (směrodatná odchylka koncentrace u druhého potrubí je větší než u prvního), což zvyšuje míru nejistoty ohledně skutečné střední hodnoty.

ҧ Test o rozptylu (úloha B) I Podrobný popis a vzorce viz příslušný text. Jde o posouzení, zdali je variační koeficient V = σ μ < 8 %. Předpokládejme, že výběrový průměr je nenáhodný a roven střední hodnotě, tj. μ = തX, a nechť je roven své realizaci vypočtené z dat. Tímto způsobem převedeme původní úlohu na tvar σ < 0,08 jednovýběrový test o rozptylu. x ҧ, což vede na Ten ovšem Statistica nenabízí, a tak úlohu musíme vyřešit ručně (použijeme hodnoty spočtené v úloze A), anebo v Excelu. Spočteme σ 0 = 0,08 x pro 1. potrubí 0,762 2. potrubí 0,791

Test o rozptylu (úloha B) II Spočteme testovací statistiku R = 1. potrubí 8,635 2. potrubí 23,855 20s2 (0,08 ҧ x ) 2 pro Dále spočteme p hodnotu testu: Statistiky Základní statistiky/tabulky Pravděpodobnostní kalkulátor Rozdělení zvolíme rozdělení Chi 2, do políčka Chi 2: vložíme postupně hodnoty R pro 1. a 2. potrubí 8,635 a 23,855, sv: volíme 20 Výpočet V políčku p: najdeme hledanou p hodnotu testu: 1. potrubí 0,0132 2. potrubí 0,751217

Test o rozptylu (úloha B) III V případě prvního potrubí jsme dosáhli velmi nízké p hodnoty 0,013. Můžeme tedy zamítnout H 0 : σ = σ 0 ve prospěch H 1 : σ < σ 0, a to i pro hladiny významnosti 1,3 %. Na základě naměřených koncentrací můžeme se spolehlivostí vyšší než 98 % (tj. s pravděpodobností chyby méně než 2 %) tvrdit, že předložený výběr je získán s přesností lepší než 8 %. Toto tvrzení lze tedy považovat za prokázané. Tomu odpovídá i odhadnutá hodnota variačního koeficientu 5,26 %, což je výrazně pod požadovanými 8 %. V případě druhého potrubí vychází velmi vysoká p hodnota 0,751. Pro zamítnutí H 0 : σ = σ 0 ve prospěch H 1 : σ < σ 0 by hladina významnosti musela být alespoň 76 %. Tvrdit, že předložený výběr je získán s přesností lepší než 8 %, můžeme tedy pouze se spolehlivostí menší než 25 % (tj. s pravděpodobností chyby více než 75 %). Toto tvrzení rozhodně nelze považovat za prokázané. Tomu odpovídá i odhadnutá hodnota variačního koeficientu 8,74 %, což je dokonce více než požadovaných 8 %. Pozor, nemusí to ještě automaticky znamenat, že výběr je získán s přesností horší než 8 %! Toto můžeme tvrdit se spolehlivostí cca 75 % (tj. pravděpodobností chyby 25 %), což je běžně považováno za neprůkazné.