Neparametrické metody

Podobné dokumenty
Neparametrické testy

Testování statistických hypotéz

Stručný úvod do testování statistických hypotéz

Testy statistických hypotéz

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

KGG/STG Statistika pro geografy

4ST201 STATISTIKA CVIČENÍ Č. 7

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Regresní a korelační analýza

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování hypotéz. 4. přednáška

Průzkumová analýza dat

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

15. T e s t o v á n í h y p o t é z

STATISTICKÉ TESTY VÝZNAMNOSTI

INDUKTIVNÍ STATISTIKA

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Úvod do analýzy rozptylu

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Regresní a korelační analýza

12. cvičení z PST. 20. prosince 2017

= = 2368

KGG/STG Statistika pro geografy

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Charakteristika datového souboru

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

You created this PDF from an application that is not licensed to print to novapdf printer (

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování hypotéz o parametrech regresního modelu

Testování statistických hypotéz. Obecný postup

Testování hypotéz o parametrech regresního modelu

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

NEPARAMETRICKÉ TESTY

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Jana Vránová, 3. lékařská fakulta UK

MATEMATIKA III V PŘÍKLADECH

Ing. Michael Rost, Ph.D.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Zápočtová práce STATISTIKA I

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

2 ) 4, Φ 1 (1 0,005)

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Pravděpodobnost a aplikovaná statistika

15. T e s t o v á n í h y p o t é z

Návrhy dalších možností statistického zpracování aktualizovaných dat

Statistické metody uţívané při ověřování platnosti hypotéz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Statistické testování hypotéz II

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

5. T e s t o v á n í h y p o t é z

Statistická analýza jednorozměrných dat

Cvičení ze statistiky - 9. Filip Děchtěrenko

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Regresní a korelační analýza

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Přednáška IX. Analýza rozptylu (ANOVA)

Vysoká škola ekonomická v Praze

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Vzorová prezentace do předmětu Statistika

Vybrané partie z biostatistiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Kontingenční tabulky, korelační koeficienty

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Korelační a regresní analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

PRAVDĚPODOBNOST A STATISTIKA

Cvičení ze statistiky - 8. Filip Děchtěrenko

Statistika, Biostatistika pro kombinované studium. Jan Kracík

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

7. Analýza rozptylu.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Jednostranné intervaly spolehlivosti

Regresní a korelační analýza

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Pravděpodobnost a matematická statistika

Testy. Pavel Provinský. 19. listopadu 2013

Transkript:

Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot zjišťuje o kolik směrodatných odchylek se liší extrémní hodnota od průměru. Nebo test střední hodnoty zjišťuje o kolik směrodatných odchylek se liší průměr od očekávané hodnoty. Metody, které předpokládají, že známe parametry rozdělení nazýváme parametrické. Neparametrické metody nepředpokládají nějaký konkrétní typ rozdělení. Neparametrické metody nejsou tak silné jako parametrické.

Neparametrické metody m = 6,0 s = 1,0 N = 20 m = 6,0 s = 1,0 N = 20

Grubbsův test odlehlých hodnot! parametrický! Platí pouze pro normální rozdělení. Jako míra odlehlosti hodnoty slouží její vzdálenost od aritmetického průměru výběru dat s normálním rozdělením, vztažená ke směrodatné odchylce (NE výběrové, ale směrodatné odchylce celého uvažovaného souboru). Testovací statistika má tvar T = x i S N, kde S= 1 N i=1 x i 2 Je-li testovací kritérium T větší než kritická hodnota T N,a, vyloučíme testovanou hodnotu ze souboru. Kritické hodnoty Grubbsova T-rozdělení (a = 0,05 a 0,01) N 3 4 5 7 10 15 20 30 50 70 100 200 T N,0,05 1,15 1,48 1,72 2,02 2,29 2,55 2,71 2,91 3,13 3,26 3,38 3,61 T N,0,01 1,15 1,49 1,76 2,14 2,48 2,81 3,00 3,24 3,48 3,62 3,75 3,98

Deanův-Dixonův Q-test odlehlých hodnot H 0 : Nejmenší, resp. největší hodnota z výběru není odlehlá. H 1 : Nejmenší, resp. největší hodnota z výběru je odlehlá. Testovací statistika má tvar Q= x 2 x 1 x N x 1 Q= x N x N 1 x N x 1 pro nejmenší hodnoty, pro největší hodnoty. Kritický obor: Q > Q N,a Kritické hodnoty Deanova-Dixonova Q-rozdělení (a = 0,05) http://www.jstatsoft.org/v57/i02/paper N 5 10 15 20 25 30 40 50 60 70 100 Q N,0.05 0,642 0,412 0,339 0,300 0,276 0,259 0,236 0,221 0,210 0,202 0,185 Q N,0.01 0,781 0,526 0,438 0,392 0,363 0,342 0,314 0,296 0,282 0,272 0,250

Pořadí Pořadí R i udává počet čísel x 1, x 2,..., x n, která jsou menší nebo rovna číslu x i. Jsou-li všechna čísla různá a seřazená podle velikosti, odpovídá pořadí indexu. R i = i. Pokud je několik čísel x 1, x 2,..., x n stejných přiřadíme jim průměrné pořadí. Vzestupně uspořádané hodnoty -2-2 1 8 8 8 22 Index 1 2 3 4 5 6 7 Pořadí R i 1.5 1.5 3 5 5 5 7

Mediánový test Mediánový test je neparametrickou alternativou testu střední hodnoty (střední hodnota výběru se rovná nějaké konstantě). U mediánového testu testujeme nulovou hypotézu: H 0 : Medián souboru je roven konstantě c. Označíme-li n rozsah výběru a m počet hodnot menších než c, testovací kritérium vypočítané podle vztahu: Z = 2 m n n má normální rozdělení se střední hodnotou 0 a směrodatnou odchylkou 1, je-li počet hodnot větší než 30. Kritickou hodnotu spočítáme pomocí funkce =NORM.S.INV(1 - a/2) {NORMSINV}. Je-li testovací kritérium větší než kritická hodnota, nulovou hypotézu zamítáme.

Znaménkový test Znaménkový test je neparametrickou alternativou párového testu a variantou mediánového testu. Testujeme u párových rozdílů jestli je medián nulový (počet kladných a záporných hodnot stejný). Tedy: H 0 : Medián souboru je roven nule. resp. Počet kladných a záporných rozdílů je stejný. Označíme-li n rozsah výběru a m počet hodnot menších než 0, testovací kritérium vypočítané podle vztahu: Z = 2 m n n má normální rozdělení se střední hodnotou 0 a směrodatnou odchylkou 1. Kritickou hodnotu počítáme stejně jako u mediánového testu. Poznámky: Pokud jsou některé rozdíly nulové, vyřadíme je. Při menším počtu pozorování hledáme kritické hodnoty znaménkového testu ve speciálních tabulkách.

Mann-Whitneyův pořadový test Mann-Whitneyův pořadový test je neparametrickou analogií testu rovnosti dvou středních hodnot. Testujeme nulovou hypotézu, že dva soubory, ze kterých byly provedeny výběry mají stejný medián. Seřadíme spojená data obou výběrů podle velikosti a každé hodnotě přiřadíme pořadí. Sečteme pořadí obou výběrů a označíme je W 1 a W 2. Vypočítáme testovací kritérium Z= W n (n +n +1)/2 1 1 1 2 n 1 n 2 (n 1 +n 2 +1)/12 kde n 1 je počet hodnot prvního výběru a n 2 počet hodnot druhého výběru. Testovací kritérium má normální rozdělení se střední hodnotou 0 a směrodatnou odchylkou 1. Kritickou hodnotu spočítáme pomocí funkce =NORM.S.INV(1 - a/2). Je-li testovací kritérium větší než kritická hodnota, nulovou hypotézu zamítáme.

Spearmanův (pořadový) korelační koeficient V případě, že nejsou splněny podmínky pro Pearsonův korelační koeficient, například když testované veličiny nemají normální rozdělení nebo obsahují odlehlé hodnoty, případně když pracujeme s kvalitativními veličinami, používáme Spearmanův korelační koeficient. Místo hodnot x a y použijeme pořadí každé i x a i y, kde i x je pořadí dané hodnoty x mezi všemi hodnotami x a stejně tak i y. r s =1 N 6 i=1 i x i y 2 N N 2 1 Nulová hypotéza: r s = 0 se testuje stejně jako u Pearsonova korelačního koeficientu pomocí vztahu: t= r n 2 1 r 2 Kritický obor: t > t 1-α (n-2), kde t 1-α (n-2) jsou kvantily Studentova rozdělení, které lze spočítat pomocí funkce=t.inv.2t(α,n-2).