PSY117/454 Statistická analýza dat v psychologii Přednáška 10



Podobné dokumenty
Statistické testování hypotéz II

ADDS cvičení 7. Pavlína Kuráňová

Analýza dat z dotazníkových šetření

Jana Vránová, 3. lékařská fakulta UK

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 7

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Příklad: Test nezávislosti kategoriálních znaků

Seminář 6 statistické testy

Seminář 6 statistické testy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Přednáška X. Testování hypotéz o kvantitativních proměnných

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

McNemarův test, Stuartův test, Test symetrie

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Kontingenční tabulky, korelační koeficienty

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

2 ) 4, Φ 1 (1 0,005)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Počet pravděpodobnosti

KGG/STG Statistika pro geografy

Statistické metody uţívané při ověřování platnosti hypotéz

Analýza dat na PC I.

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Testy. Pavel Provinský. 19. listopadu 2013

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Kontingenční tabulky, korelační koeficienty

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

15. T e s t o v á n í h y p o t é z

příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

INDUKTIVNÍ STATISTIKA

15. T e s t o v á n í h y p o t é z

Cvičení 12: Binární logistická regrese

ADDS cviceni. Pavlina Kuranova

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

6. T e s t o v á n í h y p o t é z

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Kontingenční tabulky. (Analýza kategoriálních dat)

Cvičení ze statistiky - 9. Filip Děchtěrenko

Měření závislosti statistických dat

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

PSY117. Přednáška VZTAHY MEZI PROMĚNNÝMI KORELAČNÍ KOEFICIENT

Pravděpodobnost a aplikovaná statistika

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

Tomáš Karel LS 2012/2013

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

You created this PDF from an application that is not licensed to print to novapdf printer (

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

12. cvičení z PST. 20. prosince 2017

Vybraná rozdělení náhodné veličiny

ROZDĚLENÍ NÁHODNÝCH VELIČIN

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Porovnání dvou výběrů

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

5. T e s t o v á n í h y p o t é z

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Náhodná veličina a rozdělení pravděpodobnosti

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Modul Analýza síly testu Váš pomocník při analýze dat.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Jednovýběrové testy. Komentované řešení pomocí MS Excel

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Transkript:

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť

Analýza četností hodnot nominální proměnné Výzkumné otázky Liší se významně preference nějakých politických stran? Liší se poměrné zastoupení kuřáků mezi ženami a muži? Souvisí nějak individuální volební preference s odhadem měsíčního příjmu respondenta? Otázky směřují Nominální proměnná buď k rozdílu četností různých jevů v rámci jedné proměnné (četnost různých jevů v jedné populaci), k rozdílu četností jevu mezi různými proměnnými (četnost jevu v různých populacích), Nebo k pravděpodobnosti výskytu dvou (či více) jevů současně. Též kategoriální, alternativní Zařazení jevu do určité kategorie Jednotlivé kategorie musí být vzájemně disjunktní metodologie & logika věci Kategorie mohou vzniknout i transformací z proměnné vyššího řádu kategorizace pořadí, známek ve škole, nižší úzkost x vyšší úzkost atd. Ordinální proměnné o málo opakujících se pořadích (k<10) mohou být analyzovány jako nominální Klíčová slova Četnost, relativní četnost, očekávaná četnost, rezidua, χ 2 (Chi-kvadrát) AJ: frequency, relative frequency, expected frequency, residuals, Chi-square

Rozdělení Chi 2

c 2 test dobré shody Liší se empirické četnosti nějakých jevů od teoreticky očekávaných četností? Házení kostkou kolikrát padne 1,2, Preference politických stran ve volbách Tedy jedna nominální proměnná, jeden výběr Testujeme pravděpodobnost daného rozdílu mezi empirickými a očekávanými hodnotami v rámci jednoho výběru k 2 2 ( n i npi ) c H 0 : F(x) = F 0 (x) vs. H 1 : F(x) F 0 (x) i1 npi k je počet kategorií, n velikost vzorku, n i pozorovaná četnost v kat. i, p i teoretická pravděpodnost jevu v kategorii (0 až 1); n i = np i Rozdělení c 2 ; stupně volnosti df = k-1 Překoná-li hodnota c 2 kritickou mez, H 0 zamítáme. Pro získání pravděpodobnosti c 2 CHIDIST(x,volnost); CHIINV(prst, volnost) Očekávané četnosti při uniformním rozložení 1:1:1 ; nebo libovolně teoreticky odvozené (10:24:32 ) N i i NP i vždy jako četnosti; nikdy ne procenta = relativní četnosti (ztráta informace o velikosti vzorku. AJ: Chi-square goodness-of-fit test, observed (empirical) frequency vs. expected frequency

Ve kterém měste by jste žili nejraději? Uniformní/náhodné rozdělení Kategorie n p np (n-np)^2/np Paříž 28 0,2 28 0 New York 28 0,2 28 0 Londýn 28 0,2 28 0 L.A. 28 0,2 28 0 Tokio 28 0,2 28 0 k ( n np ) c 2 i i np i1 i 2 Celkem 140 1 140 0 Chi2 0 p 1,000

Ve kterém měste by jste žili nejraději? Empirické rozdělení Kategorie n p np (n-np)^2/np Paříž 38 0,2 28 3,57 New York 37 0,2 28 2,89 Londýn 22 0,2 28 1,29 L.A. 25 0,2 28 0,32 Tokio 18 0,2 28 3,57 k ( n np ) c 2 i i np i1 i 2 Celkem 140 1 140 11,64 Chi2 11,64 p 0,02

Závislost kategoriálních proměnných Jaká je souvislost preference politické strany a úrovně hrubého příjmu voliče? Jaká je pravděpodobnost společného výskytu dvou jevů z x a y možných? Podmínka disjunkce! Kontingenční tabulka řádky x sloupce = r x s; i x j Ve těle tabulky jsou četnosti jednotlivých kombinací, v okrajích tzv. marginální četnosti sumy sloupců nebo řádků. Tedy n 12 znamená počet osob ve druhém sloupci prvního řádku; počet osob, u nichž nastal jev A 1 a současně B 2. Kategorie B 1 B 2... B s Řádkové součty A 1 n 11 n 12... n 1s n 1. A 2 n 21 n 22... n 2s n 2................... A r n i1 n i2... n ij n i. Sloupcové součty n.1 n.2... n. j n AJ: contingency table (crosstabulation, ctosstab), marginal frequencies

Závislost kategoriálních proměnných Postup analogický, jako u jednorozměrné verze testu dobré shody c 2 Očekávané četnosti: m ij (očekávaná četnost v i-j-té buňce)(i řádky, j sloupce) Testová statistika je c 2 Stupně volnosti: df = (i-1)*(j-1) m ij n i. n n. j r s ( n ij m 2 ij ) c m r1 j1 Kategorie B 1 B 2... B s Řádkové součty ij 2 A 1 n 11 n 12... n 1s n 1. A 2 n 21 n 22... n 2s n 2................... A r n i1 n i2... n ij n i. Sloupcové součty n.1 n.2... n. j n

Síla vztahu v kontingenční tabulce Koeficient kontingence (Pearson) C kor Cramerovo V Oba koeficienty v intervalu (0;1). Neindikují ovšem žádným způsobem směr vztahu. Směrů je v kontingenční tabulce mnoho :-) A proto jsou kontingenční tabulky mnohdy účelné i tehdy, máme-li k dispozici data na vyšší úrovni měření. Možnost odhalení nelineárních vztahů Skrze výpočet reziduí, tj. rozdílů mezi pozorovanou a očekávanou četností: n ij m ij = res i tyto zbytkové hodnoty lokalizují odchylky od pravděpodobnostního rozdělení Součet residuí v tabulce je vždy nula Standardizovaná rezidua (Pearsonova): R = (n ij m ij )/ m ij rozdělení standardizovaných reziduí je normální s průměrem 0 a sm. odchylkou 1; tedy R +- 1,96 jsou zajímavá pro interpretaci, významně přispívají k signifikanci χ 2. Analýza tabulky skrze χ 2 je nespolehlivá, je-li min(m ij ) < 5. I řídké jevy musí mít šanci Hendl str. 297 313. AJ: strength of association, contingency coefficient, standardized residuals

Testy středních hodnot pro ordinální proměnné neparametrické metody Metody užívající parametrů normálního rozložení nejsou dobře použitelné v případech, kdy Data nepochází z normálního rozložení Data mají ordinální charakter; nebo se jedná o krátké intervalové škály Jsou malé výběry Obecně parametry m, s nedávají dobrou informaci Neparametrické metody problém překonávají, jsou robustní vůči rozložení dat (nezávisí na parametrech norm. rozl.) Pro jeden výběr: znaménkový,... Pro párové srovnání: Marginal Homogeneity,... Pro 2 nezávislé výběry: Mann-Whitney U, Kolmogorov-Smirnov Z a mnoho dalších... na velkém vzorku je ale koneckonců robustní i t-test platnost centrální limitní věty; ovšem pozor na bimodalitu a další zvláštní jevy. Non-parametric, robust, data assumptions, sign test, sample distribution etc.

Jeden výběr, znaménkový test Je průměrná známka z matematiky v nějaké třídě 2? Liší se empirická hodnota medianu od stanovené? H 0 : Md = Md 0 ; H 1 : Md Md 0... => H 0 : σ 2 = σ 2 0; H1: σ 2 σ 2 0 Pokud se hodnoty mediánů shodují, mělo by nad i pod teoretickým medianem být stejné množství případů Asymptotický test pomocí normálního rozdělení: rozdíly d i = x i Md 0 ; Z + je počet kladných rozdílů, analogicky Z -; d i = 0 ignorujeme. Platí-li H 0, Z + = Z -. Z + + Z - = n. Testovací statistika: z = (2Z + - n)/ n Padne-li statistika z do intervalu ±z α/2, H 0 nezamítáme. z má tvar asymptoticky normálního rozdělení, přesný test by využil binomického rozdělení. Jedná se tedy o alternativu t-testu pro jediný výběr; Pro závislé výběry (=párové srovnání) d i = x i y i ; znaménkovým testem zkoumáme, zda pro H 0 střední hodnota d = 0.

Neparametrické testy pro nezávislé výběry Mediánový test Je li společný medián dvou výběrů shodný, leží na jedné straně Md 50% každého výběru. Určíme Md pro celý soubor; pokud platí H0, četnosti hodnot ležících nad i pod Md by měly být stejné pro x i y. Pokud H 0 neplatí, budou četnosti výrazně asymetrické, v diagonále. V asymptotické verzi testu je možné použít kvantily normálního rozložení pro: z ( a ( ad bc) b)( b d)( a n c)( c d) x y <Md a b a+b >Md c d c+d a+c b+d n Silnější alternativou je Wilcoxonův test pro nezávislé výběry nebo Mann-Whitney U, popřípadě další.