Testování hypotéz Biolog Statistik: Matematik: Informatik:



Podobné dokumenty
Tomáš Karel LS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz. 4. přednáška

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testy statistických hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

You created this PDF from an application that is not licensed to print to novapdf printer (

5 Parametrické testy hypotéz

= = 2368

Normální (Gaussovo) rozdělení

Ing. Michael Rost, Ph.D.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Pravděpodobnost a aplikovaná statistika

Normální (Gaussovo) rozdělení

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Stručný úvod do testování statistických hypotéz

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

STATISTICKÉ HYPOTÉZY

Statistické metody uţívané při ověřování platnosti hypotéz

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování statistických hypotéz

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Testy. Pavel Provinský. 19. listopadu 2013

Jednostranné intervaly spolehlivosti

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Aproximace binomického rozdělení normálním

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

PRAVDĚPODOBNOST A STATISTIKA

Tomáš Karel LS 2012/2013

Testování statistických hypotéz

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

2 ) 4, Φ 1 (1 0,005)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

7.1. Podstata testu statistické hypotézy

Náhodné veličiny, náhodné chyby

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

4EK211 Základy ekonometrie

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Statistika, Biostatistika pro kombinované studium. Jan Kracík

15. T e s t o v á n í h y p o t é z

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

15. T e s t o v á n í h y p o t é z

Cvičení ze statistiky - 9. Filip Děchtěrenko

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování statistických hypotéz. Obecný postup

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Zápočtová práce STATISTIKA I

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

ADDS cviceni. Pavlina Kuranova

12. cvičení z PST. 20. prosince 2017

STATISTICKÉ ZJIŠŤOVÁNÍ

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

5. T e s t o v á n í h y p o t é z

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Jana Vránová, 3. lékařská fakulta UK

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Charakteristika datového souboru

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

STATISTICKÉ TESTY VÝZNAMNOSTI

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové Odhady Parametrů II Testování Hypotéz

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Regresní a korelační analýza

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

KGG/STG Statistika pro geografy

Tomáš Karel LS 2012/2013

MATEMATIKA III V PŘÍKLADECH

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Aplikovaná statistika v R - cvičení 2

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Základní statistické metody v rizikovém inženýrství

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Transkript:

Testování hypotéz Biolog, Statistik, Matematik a Informatik na safari. Zastaví džíp a pozorují dalekohledem. Biolog "Podívejte se! Stádo zeber! A mezi nimi bílá zebra! To je fantastické! " "Existují bílé zebry! Budeme slavní!" Statistik: "To není významné. Platí pouze, že hypotézu, že bílé zebry neexistují nemůžeme zamítnout!" Matematik: "Ve skutečnosti víme, že existuje zebra, která je na jedné straně bílá." Informatik: "Ale kdepak! To je výjimka!"

Typické zdroje hypotéz Požadavek na potřebnou kvalitu produktu Hypotéza je založena na předchozí zkušenosti Hypotéza vychází z teorie, kterou je třeba doložit Hypotéza je pouhým dohadem, založeným na náhodném pozorování Srovnáváme dvě tvrzení: H 0 nulová hypotéza většinou obhajuje stávající stav věcí H A alternativní hypotéza ji odporuje

Chyby při testování hypotéz Chyba. druhu: nulová hypotéza sice platí, ale my ji zamítáme. Rozhodnutí o zamítnutí H 0 je dáno hladinou významnosti testu, což je maximální přípustná pravděpodobnost chyby. druhu. Hladina testu se zpravidla značí symbolem a. Většinou volíme hladinu významnosti a=0,05 nebo a=0,0. K chybě. druhu dochází, když nulová hypotéza neplatí, ale my ji nezamítneme (nepoznáme, že neplatí). Doplněk pravděpodobnosti chyby. druhu do jedničky ( b) se nazývá síla testu. Je to pravděpodobnost, že nulovou hypotézu zamítneme, když tato hypotéza neplatí, tedy pravděpodobnost, s jakou neplatnost hypotézy objevíme.

Chyby v testování hypotéz H 0 je ve skutečnosti: Já se rozhodnu takto správná nesprávná Zamítám H 0 Chyba. druhu Správné rozhodnutí Nezamítám H 0 Správné rozhodnutí Chyba. druhu Pravděpodobnost chyby. druhu (b) obvykle neznáme. - b je síla testu Čím větší nároky kladu na a (0.05 0.0 0.00), tím vyšší bude b b klesá i s rostoucím počtem pozorování Zjištění statistické významnosti nikdy nemůže nahradit rozhodnutí o vědeckém (věcném) významu výsledků!

Doporučený postup při testování v běžné praxi zdůvodnění výběru parametrických či neparametrických testů; formulace H0 a určení skupiny vhodných testů (např. neparametrická obdoba ANOVY) ; konkretizace testu (např. Friedmanův test); výpočet testovací charakteristiky; rozhodnutí o H0 a interpretace výsledku.

Testování klasický postup Formulujeme testovanou (H 0 ) a alternativní hypotézu (H A ) Vybereme vhodný test (testová statistika) Vypočítáme hodnotu testové statistiky Sestrojíme kritický obor W pro zvolenou hladinu významnosti Jestliže hodnota testové statistiky padne do oboru zamítnutí, zamítneme H 0. Testování p hodnota Formulujeme testovanou (H 0 ) a alternativní hypotézu (H A ) Vybereme vhodný test (testová statistika) Vypočítáme hodnotu testové statistiky Dle hodnoty testové statistiky vypočteme nejmenší obor zamítnutí. Hladina významnosti odpovídající tomuto kritickému oboru je p hodnota. Jestliže je p-hodnota menší než zadaná hladina významnosti, pak zamítněte nulovou hypotézu.

Kritický obor obor zamítnutí H0: m = m 0 (oboustranný test) Obor přijetí : H0: m < m 0 (levostranný test) Obor přijetí : z a z H0: m > m 0 (pravostranný test) Obor přijetí : z a,, a a p-hodnota, z PZ z 0 min( P( Z z0), P( Z z0)) P Z z 0

Vzorce pro testy a intervalové odhady

Testy o shodě dvou středních hodnot (nepárový T test) H0: m =m Nezávislé výběry, normální rozdělení nebo velké rozsahy výběrů různé neznámé rozptyly Testová statistika T má přibližně t-rozdělení s počtem stupňů volnosti d. Kritický obor na 5% hladině významnosti: pro dvoustranný test ±t 0,05 pro jednostranné testy +t 0,05 nebo t 0,05, = = n n s n n s n s n s n s n s X X T d

Testy o shodě dvou středních hodnot (nepárový T test) Statistical Toolbox http://radio.feld.cvut.cz/matlab/toolbox/stats/ch_ref.html#439 H 0 : m =m hypotézu o shodě dvou středních hodnot zamítáme pro p < 0,05 (dle zvolené hladiny významnosti) [h,p] = ttest(data,data); [h_t,p_t]=ttest(data,data,0.05,'right','unequal'); p dosažená hladina významnosti (chyba. druhu) h=0 Nemůžeme zamítnout nulovou hypotézu h= Nulovou hypotézu zamítáme na hladině významnosti a=0,05

Chí kvadrát test dobré shody H 0 náhodný výběr byl proveden z rozdělení stanoveného typu Provést: intervalové rozdělení četností Podmínky: - žádný interval s nulovou četností; maximálně 0% intervalů s četností menší než 5 Testovací kritérium: kde: A i je pozorovaná četnost, E i je očekávaná četnost a n je počet intervalů. Kritický obor: a,n ; = n i= ( A E E Pokud je hodnota testovacího kritéria vyšší, než příslušná kritická hodnota rozdělení chí-kvadrát pro (n - ) stupňů volnosti (kde n = počet intervalů), hypotézu o shodě dvou rozdělení zamítáme (na příslušné hladině významnosti) i i i )

Chí kvadrát test dobré shody Statistical Toolbox http://radio.feld.cvut.cz/matlab/toolbox/stats/ch_ref.html#439 H 0 náhodný výběr byl proveden z rozdělení stanoveného typu hypotézu o shodě dvou rozdělení zamítáme pro p < 0,05 (Dle zvolené hladiny významnosti) x= normrnd(,4,500,);% generování vzorku z N(,4) [h,p] = chigof(x); [h,p]=chigof(x,'cdf',{@normcdf,,4}); p dosažená hladina významnosti (chyba. druhu) h=0 Nemůžeme zamítnout nulovou hypotézu h= Nulovou hypotézu zamítáme na hladině významnosti a=0,05 % Nagy toolbox pvalchi = chisquare_test_h(data,4*randn(00,)+);

Chí kvadrát test dobré shody Statistical Toolbox http://radio.feld.cvut.cz/matlab/toolbox/stats/ch_ref.html#439 H 0 náhodný výběr byl proveden z exponenciálního rozdělení exp() hypotézu o shodě dvou rozdělení zamítáme pro p < 0,05 (Dle zvolené hladiny významnosti) data= exprnd(,500,);% generování vzorku z exp() [h,p]=chigof(data,'cdf',{@expcdf,}); if h==0, display('h0 can NOT be rejected'); else display('h0 can be rejected') end fprintf('p-value: %.3g \n',p)

Neparametrické testy shody Používají se, pokud jsou předpoklady normality dat evidentně nesplněné, např.: v souboru je příliš mnoho stejných hodnot, nebo některé hodnoty evidentně příliš odlehlé, nebo rozdělení četností je sice souměrné, ale má tvar písmene "U". Pro data s normálním rozdělením četností dávají horší výsledky (zamítají nulové hypotézy méně často, než je zdrávo - mají menší sílu)

Kolgomorov-Smirnovův test shody pro jeden výběr H 0 : náhodný výběr byl proveden z rozdělení stanoveného typu Používá se v případech, kdy se nedoporučuje test (při počtu tříd > nemá být více než 0% četností menších než 5 a žádná menší než, při k= nemá být žádná menší než 5). data= exprnd(,500,);% generování vzorku z exp() [h_ks,p_ks]=kstest(data,[data,expcdf(data,)]); [h_l,p_l]=lillietest(data,[],'exp'); % 'norm' 'exp' 'ev' % Nagy toolbox pvalks = ks_test(data,'exponential',); pvalks = ks_test(data,'normal',mu,std);%normální rozdělení

Kolmogorov-Smirnovův test shody pro dva výběry Užívá se pro hodnocení shody rozdělení četností dvou srovnávaných výběrů. Můžeme jej použít v těchto případech: a) malé výběry stejného rozsahu ne většího než 40 (n = n < 40) b) velké výběry (n i n > 40); nemusí mít stejný rozsah H 0 : náhodné výběry pocházejí ze stejného rozdělení Hypotézu o shodě dvou rozdělení zamítáme pro p < 0,05 (Dle zvolené hladiny významnosti) data= exprnd(,500,);% generování vzorku z exp() data= exprnd(,500,);% generování vzorku z exp() [h_ks,p_ks]=kstest(data,data); % Nagy toolbox pvalchi = chisquare_test_h(data,data);%stejný rozsah

dfittool(data) dfittool

dfittool

Odhady parametrů rozdělení Diskrétní náhodná veličina lambda=4;n=00; % intenzity, sample size y=poissrnd(lambda,n,); % generator bins=:0; freq=hist(y,bins); bar(freq/n) [lambda_est,lambda_ci]=poissfit(y); %95% conf. interval y_est=pdf('poisson',bins,lambda_est); 0.5 hold on plot(y_est,'om','linewidth',5) 0. 0.5 0. 0.05 0 3 4 5 6 7 8 9 0

F(x) 0 Odhady parametrů rozdělení Spojitá náhodná veličina lambda=/4;y=exprnd(/lambda,500,); %Exponential cdfplot(y); %fitdist(y,'exponential') % same output as dfittool par_mle = mle(y,'distribution','exponential'); [par_est,par_ci]=expfit(y); hold on x = 0:0.:0; cdf = expcdf(x,par_est); 0.9 0.8 0.7 Empirical CDF Empirical Theoretical plot(x,cdf,'m') legend('empirical','theoretical') hold off 0.6 0.5 0.4 0.3 0. 0.

http://home.zcu.cz/~friesl/hpsb/tit.html Odkazy hypertextové skriptum statistiky, přehledně zpracované http://new.euromise.org/czech/tajne/ucebnice/html/html/ Základy statistiky pro biomedicínské obory http://office.microsoft.com/cs-cz/excel-help/nastroje-statisticke-analyzy- HP00503873.aspx přehled statistických nástrojů v Excelu http://radio.feld.cvut.cz/matlab/toolbox/stats/ch_ref.html#439 Manuál statistického toolboxu http://staff.utia.cas.cz/nagy/skola/prpstat/stat/statistika.html Výuka statistiky na FD studijní materiály, podklady k přednáškám i cvičením