Přednáška 10. Analýza závislosti

Podobné dokumenty

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

Dokážete si vybrat správnou nemocnici? aneb Ministr zdravotnictví ML varuje Martina Litschmannová

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Jana Vránová, 3. lékařská fakulta UK

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Kontingenční tabulky, korelační koeficienty

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Kontingenční tabulky, korelační koeficienty

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Korelační a regresní analýza

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Analýza dat z dotazníkových šetření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Regresní a korelační analýza

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

INDUKTIVNÍ STATISTIKA

NÁHODNÝ VEKTOR. 4. cvičení

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Statistická analýza jednorozměrných dat

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

PRAVDĚPODOBNOST A STATISTIKA

6. Lineární regresní modely

Tomáš Karel LS 2012/2013

Testování statistických hypotéz

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Regresní a korelační analýza

ADDS cvičení 7. Pavlína Kuráňová

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

12. cvičení z PST. 20. prosince 2017

Úvodem Dříve les než stromy 3 Operace s maticemi

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příklad: Test nezávislosti kategoriálních znaků

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Porovnání dvou výběrů

Aplikovaná statistika v R - cvičení 2

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Regresní a korelační analýza

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Technická univerzita v Liberci

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Mnohorozměrná statistická data

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tomáš Karel LS 2012/2013

Pearsonův korelační koeficient

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4ST201 STATISTIKA CVIČENÍ Č. 7

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Testování hypotéz o parametrech regresního modelu

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

Regresní a korelační analýza

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Měření závislosti statistických dat

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Cvičení 12: Binární logistická regrese

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Poznámky k předmětu Aplikovaná statistika, 4. téma

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy statistických hypotéz

Regresní a korelační analýza

Poznámky k předmětu Aplikovaná statistika, 4. téma

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Návod na vypracování semestrálního projektu

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Korelace. Komentované řešení pomocí MS Excel

Cvičení ze statistiky - 9. Filip Děchtěrenko

Pravděpodobnost a aplikovaná statistika

Ilustrační příklad odhadu LRM v SW Gretl

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Fisherův exaktní test

Přednáška X. Testování hypotéz o kvantitativních proměnných

Transkript:

Přednáška 10 Analýza závislosti Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti dvou spojitých proměnných Pearsonův korelační koeficient, Spearmanův korelační koeficient

Analýza závislosti V praxi často u statistických jednotek (pozorovaných osob nebo jiných objektů) zjišťujeme současně řadu znaků. Například spotřeba, objem motoru, hmotnost a zrychlení automobilů, výše mzdy, velikost IQ, hmotnost a výška mužů, školní prospěch a pocit deprese u dětí, apod. Možnosti vyhodnocení: Analýza jednotlivých znaků (každý zvlášť) Analýza závislosti, tj. může zajímat, zda existuje závislost mezi spotřebou automobilu a jeho hmotností, výši mzdy a velikostí IQ, pocitem deprese u dětí a školním prospěchem.

Typ znaku X (příčina) Metody analýzy jednostranné závislosti Jednostranná závislost - znak X působí na znak Y, avšak znak Y již nepůsobí zpětně na znak X. kategoriální kvantitativní Typ znaku Y (důsledek) kategoriální kvantitativní analýza závislosti v kontingenčních, ANOVA resp. v asociačních tabulkách Diskriminační analýza, logistická regrese regresní a korelační analýza Není náplni základního kurzu Statistika!

Analýza závislosti dvou kategoriálních proměnných

Analýza závislosti v kontingenčních tabulkách

Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. místo/stupeň spokojenosti velmi spíše spíše velmi nespokojen nespokojen spokojen spokojen Praha 10 25 50 15 Venkov 20 10 130 40 Výsledky šetření analyzujte.

V jakém formátu obvykle získáváme tento typ dat? Místo Praha Praha Venkov Praha Venkov Venkov Stupeň spokojenosti velmi spokojen spíše spokojen spíše nespokojen spíše spokojen velmi spokojen spíše spokojen Tento převod lze provést pomocí většiny tabulkových procesorů i statistického software. Standardní datový formát místo/stupeň spokojenosti velmi spíše spíše velmi nespokojen nespokojen spokojen spokojen Praha 10 25 50 15 Venkov 20 10 130 40 Kontingenční tabulka

Základní terminologie Se základní terminologii a způsobem testování nezávislosti v kontingenční tabulce se seznamte v řešeném příkladu Analýza závislosti dvou kategoriálních veličin (flash animace).

Co je to kontingenční tabulka? X\Y y 1 y 2 y s Celkem x 1 n 11 n 12 n 1s n 1 x 2 n 21 n 22 n 2s n 2 x r n r1 n r2 n rs n r Celkem n 1 n 2 n s n Schéma rozšířené kontingenční tabulka Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými.

Jak posoudit intenzitu závislosti mezi dvěma kategoriálními proměnnými pomoci explor. analýzy? Grafická analýza Shlukový sloupcový graf, kumulativní sloupcový graf, prostorový sloupcový graf (angl. sky chart), mozaikový graf, 100% skládaný pruhový graf Míry kontingence koeficient kontingence (počet variant obou proměnných je stejný) korigovaný koeficient kontingence, Cramerovo V Čím jsou tyto koeficienty blíže 1, tím je závislost mezi X a Y těsnější.

Míry kontingence Označme: r počet variant proměnné X, s počet variant proměnné Y, K = r i=1 s j=1 O ij E ij 2 E ij, kde O ij jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a E ij jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. Koeficient kontingence ( r = s CC 0; 1 ) CC = K K+n

Míry kontingence Označme: r počet variant proměnné X, s počet variant proměnné Y, K = r i=1 s j=1 O ij E ij 2 E ij, kde O ij jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a E ij jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. Korigovaný koeficient kontingence CC cor = CC CC max, kde CC max = min r;s 1 min r;s

Míry kontingence Označme: r počet variant proměnné X, s počet variant proměnné Y, K = r i=1 s j=1 O ij E ij 2 E ij, kde O ij jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a E ij jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. Cramerovo V V = K n min r;s 1

Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. místo/stupeň spokojenosti velmi spíše spíše velmi nespokojen nespokojen spokojen spokojen Praha 10 25 50 15 Venkov 20 10 130 40 Výsledky šetření analyzujte.

Exploratorní analýza pomocí Statgraphicsu

Exploratorní analýza pomocí Statgraphicsu Mosaic Plot Praha Velmi nespokojen Spíše nespokojen Spíše spokojen Velmi spokojen Venkov

Exploratorní analýza pomocí Statgraphicsu

Exploratorní analýza pomocí Excelu Venkov 20 10 130 40 Praha 10 25 50 15 0% 20% 40% 60% 80% 100% Praha Venkov Velmi nespokojen 10 20 Spíše nespokojen 25 10 Spíše spokojen 50 130 Velmi spokojen 15 40

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) A to musím počítat intervalové odhady pro všechny pravděpodobnosti, které jsou v té tabulce???

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) NE!!! Vždy záleží na tom, co od výstupu analýzy očekáváš! Tohle je jen návrh analýz, které lze provést

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin χ 2 test nezávislosti v kontingenční tabulce H 0 : Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé H A : Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: žádná z očekávaných četností E ij nesmí být menší než 2, alespoň 80% očekávaných četností E ij musí být větších než 5. Testové kritérium: K = r i=1 s j=1 O ij E ij 2 E ij p hodnota = 1 F 0 x OBS, kde F 0 x je distribuční funkce χ 2 rozdělení s r 1 s 1 stupni volnosti.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Yatesova korekce χ 2 testu nezávislosti v kontingenční tabulce H 0 : Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé H A : Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: ---- Testové kritérium: K Yates = r i=1 s j=1 O ij E ij 0,5 2 E ij p hodnota = 1 F 0 x OBS, kde F 0 x je distribuční funkce χ 2 rozdělení s r 1 s 1 stupni volnosti. Poznámka: Test má menší sílu testu (oproti χ 2 testu nezávislosti).

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: A co když předpoklady splněny nebudou??? Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Pokud lze některé varianty proměnné smysluplně sloučit, zkus to udělat. Pokud ne, nelze výsledky z výběrového šetření zobecnit na populaci. Na tento možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru). Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. Výstup ze Statgraphicsu (Nekopírovat do projektů, DP, článků!!!) Rozhodnutí: Na hladině významnosti 0,05 zamítáme nulovou hypotézu (χ 2 test nezávislosti v kontingenční tabulce, χ 2 = 26,27, DF = 3, p hodnota 0,001). Lze předpokládat, že spokojenost v práci souvisí s umístěním závodu (Cramerovo V = 0,296).

Takže stačí stáhnout něco z http://www.vyplnto.cz, dotazníky vyhodnotit a mám projekt!!! No, když tam seženeš data, která lze považovat za náhodný výběr z populace, na níž chceš výsledky zobecnit, tak by to šlo. Bude hodně záležet na tom, jak to vyhodnocení provedeš

Analýza závislosti v asociačních tabulkách

Asociační tabulky speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) X (okolnosti)\y(výskyt události) y 1 (úspěch) y 2 (neúspěch) Celkem x 1 (I.) a b a + b x 2 (II.) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky

Asociační tabulky speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Asociační tabulky Na asociační tabulku lze sice nahlížet jako na speciální případ kontingenčních tabulek a při analýze používat jejich aparát, nicméně vhodnější je využít specifické metody a charakteristiky asociace. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Poměr šancí (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) Pozorovaný poměr počtu úspěchů k počtu neúspěchů (tzv. pozorovaná šance) za okolností I. je a, za okolností II. c. Odhad poměru šancí je pak b d OR = ad bc. X (okolnosti)\y(výskyt události) y 1 (úspěch) y 2 (neúspěch) Celkem x 1 (I.) a b a + b x 2 (II.) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky

Míry asociace Poměr šancí (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) Pozorovaný poměr počtu nemocných k počtu zdravých (tzv. pozorovaná šance) u exponované populace je a b, u neexponované populace c d. Odhad poměru šancí je pak OR = ad bc. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je a b = 618 4 597 = 0,134, což odpovídá přibližně 134 novorozeneckým úmrtím na 1 000 přeživších novorozenců s nízkou porodní váhou. Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. c d = 422 67 093 = 0,006 Lze očekávat přibližně 6 novorozeneckých úmrtí na 1 000 přeživších novorozenců s normální porodní hmotností.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je a b = 618 4 597 = 0,134. Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je c d = 422 67 093 = 0,006 OR = ad bc 618 67 093 = 4 597 422 21,4 šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou.

Míry asociace Poměr šancí (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) OR = ad bc. 0R < 1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. OR = 1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. OR > 1 U exponované populace je vyšší šance výskytu nemoci. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Poměr šancí (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) OR = ad bc. 0R < 1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. OR = 1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. OR > 1 U exponované populace je vyšší šance výskytu nemoci. Je-li OR 1, potřebujeme zpravidla ještě rozhodnout, zda je indikována asociace statisticky významná. Woolfova metoda: 100 1 α % intervalový odhad OR : OR e 1 a +1 b +1 c +1 d z 1 α 2; OR e 1 a +1 b +1 c +1 d z 1 α 2. Jestliže 100 1 α % intervalový odhad OR nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 OR = ad bc 618 67 093 = 4 597 422 21,4 šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou. 95% intervalový odhad OR je dán vztahem OR e 1 a +1 b +1 c +1 d z 0,975 ; OR e 1 a +1 b +1 c +1 d z 0,975. z 0,975 = 1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad OR je 19,2; 23,8. Je zcela zřejmé, že šance novorozeneckého úmrtí závisí na porodní váze 1 19,2; 23,8.

Míry asociace Absolutní riziko (angl. absolute risk ) výskytu události (onemocnění, úmrtí, ) v závislosti na okolnostech (přítomnosti sledovaného faktoru) odhad absolutního rizika onemocnění u exponovaných respondentů je a a+b, odhad absolutního rizika onemocnění u neexponovaných respondentů je c c+d. Absolutní rizika mohou nabývat hodnot z intervalu 0; 1. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko (angl. relative risk ) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. RR = a c+d c a+b. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní a hmotností je = 618 = 0,119, a+b 5 215 tj. novorozenecké úmrtí lze očekávat u cca 119 z 1 000 novorozenců s nízkou porodní váhou), u dětí s normální porodní hmotností je absolutní riziko: 0,006, c = 422 = c+d 67 515 tj. novorozenecké úmrtí lze očekávat u cca 6 z 1 000 novorozenců s normální porodní váhou.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní a hmotností je = 618 = 0,119, a+b 5 215 u dětí s normální porodní hmotností je absolutní riziko: 0,006, c = 422 = c+d 67 515 Odhad relativního rizika novorozeneckého úmrtí RR = a c+d = 0,119 = 19,0. c a+b 0,006 Ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou.

Míry asociace Relativní riziko (angl. relative risk ) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. RR = a c+d c a+b. RR < 1 RR = 1 RR > 1 Expozice snižuje riziko onemocnění. Mezi expozici a onemocněním neexistuje žádná asociace. Expozice zvyšuje riziko onemocnění. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) D (NE) Celkem E (přítomnost faktoru) a b a + b E (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko (angl. relative risk ) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. RR = a c+d c a+b. RR < 1 RR = 1 RR > 1 Expozice snižuje riziko onemocnění. Mezi expozici a onemocněním neexistuje žádná asociace. Expozice zvyšuje riziko onemocnění. Je-li RR 1, musíme rozhodnout, zda je indikována asociace statisticky významná. Katzova metoda: 100 1 α % intervalový odhad RR: RR e b a a+b + d c c+d z 1 α 2; RR e b a a+b + d c c+d z 1 α 2. Jestliže 100 1 α % intervalový odhad RR nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad relativního rizika novorozeneckého úmrtí RR = 19,0 ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou. 95% intervalový odhad RR je dán vztahem RR e b a a+b + d c c+d z 1 α 2; RR e b a a+b + d c c+d z 1 α 2. z 0,975 = 1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad RR je 17,1; 21,0. Je zcela zřejmé, že riziko novorozeneckého úmrtí závisí na porodní váze 1 17,1; 21,0.

Simpsonův paradox aneb pozor na posuzování tabulek, které se skládají ze dvou či více skupin

V Horních Sádrovicích bylo hospitalizováno 600 lehkých pacientů, z nichž 10 (1,7%) zemřelo a 400 těžkých pacientů, z nichž zemřelo 190 (47,5%). Ve Staré Dláze bylo hospitalizováno 900 lehkých pacientů, z nichž 30 (3,2%) zemřelo a 100 těžkých pacientů, z nichž zemřelo 100 (10,0%). Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000)

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Kontingenční tabulky rozšířené o marginální četnosti a řádkové rel. četnosti

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000)???

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Simpsonův paradox

Simpsonův paradox Jedná se o situaci, kdy se závislost mezi dvěma znaky kvalitativně změní, jestliže uvážíme vliv znaku třetího (skrytého). (Např. vztah mezi úmrtnosti pacientů a místem léčby (Horní Sádrovice vs. Stará Dláha), vezmeme-li v úvahu stav pacienta při přijetí do nemocnice.) Důvodem je silná závislost mezi jedním z dvou analyzovaných znaků a znakem skrytým.

Simpsonův paradox Zajímavé odkazy: 1) http://koroptew.blogspot.com/2010/11/zlocin-statistika.html 2) Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken: John Wiley and Sons. ISBN 0-471-36093-7. 3) Blyth, C. R. (1972). On Simpson's paradox and the sure-thing principle. Journal of the American Statistical Association, 67, 364-366. 4) Davis, L. J. (1989). Intersection union tests for strictly collapsibility in three-dimensional contingency tables. Annals of Statistics, 17, 1693-1708. 5) Dong, J. (1998). Simpson's paradox. Pp. 4108-4110 in Encyclopedia of Biostatistics, vol. 5. Chichester: John Wiley and Sons. 6) Pavlides, M. G., Perlman, M. D. (2009). How likely is Simpson's paradox? The American Statistician, 63, 226-233. 7) Samuels, M. L. (1993). Simpson's paradox and related phenomena. Journal of the American Statistical Association, 88, 81-88. 8) Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, 238-241. 9) Wagner, C. H. (1982). Simpson's paradox in real life. The American Statistician, 36, 46-48. 10) Wardrop, R. L. (1995). Simpson's paradox and the hot hand in basketball. The American Statistician, 49, 24-28.

Analýza závislosti dvou numerických proměnných

Malé opakování z pravděpodobnosti Co je to kovariance? Kovariance cov X, Y je definována jako smíšený centrální moment řádu 1 + 1. cov X, Y = E X E X Y E Y Vlastnosti kovariance 1. cov X, Y = E X Y E X E Y (výpočetní vztah), 2. cov X, X = D X, 3. cov a 1 X + b 1, a 2 Y + b 2 = a 1 a 2 cov X, Y, 4. jsou-li X, Y jsou nezávislé náhodné veličiny, pak cov X, Y = 0.

Malé opakování z pravděpodobnosti Co je to korelační koeficient? Korelační koeficient ρ X, Y je mírou lineární závislosti dvou náh. veličin. ρ X, Y = cov X, Y, DX, DY 0, DX DY 0 jinak. Vlastnosti korelačního koeficientu 1. 1 ρ X, Y 1, 2. ρ X, Y = ρ Y, X, 3. ρ X, X = 1, 4. jsou-li X, Y nezávislé náhodné veličiny, pak ρ X, Y = 0, 5. je-li ρ X, Y = 0, říkáme, že X, Y jsou nekorelované náhodné veličiny, 6. je-li ρ X, Y = 1, pak existuje a, b R, a > 0 takové, že Y = ax + b s pravd. 1 7. je-li ρ X, Y = 1, pak existuje a, b R, a < 0 takové, že Y = ax + b s pravd. 1 8. je-li ρ X, Y > 0, říkáme, že X, Y jsou pozitivně korelované (s rostoucím X roste Y), 9. je-li ρ X, Y < 0, říkáme, že X, Y jsou negativně korelované (s rostoucím X klesá Y).

Malé opakování z pravděpodobnosti ρ X, Y =1,000 ρ X, Y = -1,000 ρ X, Y =0,000 ρ X, Y =0,934 ρ X, Y =0,967 ρ X, Y =0,857 ρ X, Y =-0,143 ρ X, Y =0,608 Ověřit si, zda máte představu o významu korelačního koeficientu, můžete ZDE (jar).

Malé opakování z pravděpodobnosti Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Malé opakování z pravděpodobnosti Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Pearsonův korelační koeficient Korelační koeficient ρ dokážeme určit pouze tehdy, známe-li sdružené rozdělení náhodného vektoru X; Y. Nechť X 1 ; Y 1,, X n ; Y n je výběr z dvourozměrného normálního rozdělení, tj. z rozdělení, jehož sdružená hustota pravděpodobnosti je dána vztahem f x; y = 1 2πσ X σ Y 1 ρ 2 e 2 1 x μ X 2 1 ρ 2 2ρ x μ X y μ Y σ X σ X σ Y + y μ 2 Y σ Y. Pak lze odhad korelačního koeficientu ρ určit jako r = kde S XY = 1 n 1 n S XY S X 2 S Y 2, S X 2, S Y 2 0, 0 jinak, i=1 X i X Y i Y = n i=1 X i Y i nxy n X 2 i=1 i nx 2 n Y 2 i i=1 ny 2.

Pearsonův korelační koeficient Nechť X 1 ; Y 1,, X n ; Y n je výběr z dvourozměrného normálního rozdělení. Zjistíme-li, že výběrový korelační koeficient r 0, zpravidla nás zajímá, zda je indikovaná korelace statisticky významná. Chceme testovat nulovou hypotézu H 0 : ρ = 0 vůči alternativě H A : ρ 0, resp. ρ < 0, resp. ρ > 0. Testová statistika: T = r n 2 1 r 2 má za předpokladu platnosti H 0 Studentovo rozdělení s n 2 stupni volnosti. Poznámka: Jsou-li složky náhodného vektoru X; Y s dvourozměrným normálním rozdělením nekorelované, jsou nezávislé. (POZOR! Obecně to neplatí.)

Spearmanův korelační koeficient Mějme náhodný výběr X 1 ; Y 1,, X n ; Y n z dvourozměrného rozdělení. Nechť R X1,, R Xn jsou pořadí veličin X 1,, X n a nechť R Y1,, R Yn jsou pořadí veličin Y 1,, Y n. r S = 1 6 n n 2 1 n i=1 R X1 R Y1 2 Pokud se v náhodných výběrech, z nichž je r S počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient r Skorig. r Skorig = 1 6 n 2 R n 3 n T X T i=1 X1 R Y1 Y

Spearmanův korelační koeficient Mějme náhodný výběr X 1 ; Y 1,, X n ; Y n z dvourozměrného rozdělení. Nechť R X1,, R Xn jsou pořadí veličin X 1,, X n a nechť R Y1,, R Yn jsou pořadí veličin Y 1,, Y n. Pokud se v náhodných výběrech, z nichž je r S počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient r Skorig. r Skorig = 1 6 n 2 R n 3 n T X T i=1 X1 R Y1, Y kde T X = 1 2 t X 3 t X, T Y = 1 2 t Y 3 t Y, kde t X jsou rozsahy skupin stejně velkých X-ových hodnot. Obdobně definujeme t Y.

Spearmanův korelační koeficient Je-li hodnota Spearmanova korelačního koeficientu r S blízká nule, chceme zpravidla testovat, zda je odchylka koeficientu r S od nuly náhodná či statisticky významná. H 0 : X, Y jsou nezávislé náhodné veličiny. H A : X, Y jsou závislé náhodné veličiny. Testová statistika: r S Nulovou hypotézu zamítáme pokud r S r S α, kde r S α je kritická hodnota Spearmanova korelačního koeficientu. Pro rozsah výběru n 30 a hladiny významnosti 0,05, resp. 0,01 jsou kritické hodnoty r S α; n tabelovány (tabulka T16). Je-li rozsah výběru n > 30, pak r S α; n = z 1 α 2 n 1, kde z 1 α 2 je 1 α 2 kvantil normovaného normálního rozdělení.

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. Describe/Numeric Data/Multiple Variable Analysis

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. Describe/Numeric Data/Multiple Variable Analysis

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. Pro výpočty jsou brány v úvahu pouze statistické jednotky neobsahující chybějící hodnoty (angl. missing values) pro žádnou z analyzovaných proměnných. (Lze nastavit v Analysis Options.) Rozptylogram Pearsonův korelační koeficient Describe/Numeric Data/Multiple Variable Posuzovat Analysis hodnotu Pearsonova korelačního koeficientu bez vizuálního posouzení rozptylogramu nemá smysl!!!

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. Pro výpočty jsou brány v úvahu pouze statistické jednotky neobsahující chybějící hodnoty (angl. missing values) pro žádnou z analyzovaných proměnných. (Lze nastavit v Analysis Options.) Rozptylogram Pearsonův korelační koeficient Je to správný korelační koeficient??? Describe/Numeric Data/Multiple Variable Posuzovat Analysis hodnotu Pearsonova korelačního koeficientu bez vizuálního posouzení rozptylogramu nemá smysl!!!

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. H 0 : Data jsou výběrem z normálního rozdělení. H A : Data nejsou výběrem z normálního rozdělení. Proměnná Váha 0,178 Výška 0,021 P-hodnota (χ 2 test dobré shody) Na hladině významnosti 0,05 zamítáme předpoklad normality pro proměnnou výška. předpoklady pro použití Pearsonova korelačního koeficientu byly zamítnuty, je nutno použít např. Spearmanův korelační koeficient. Nutno ověřit normalitu proměnných!!!

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. H 0 : Data jsou výběrem z normálního rozdělení. H A : Data nejsou výběrem z normálního rozdělení. Proměnná Váha 0,178 Výška 0,021 P-hodnota (χ 2 test dobré shody) Na hladině významnosti 0,05 zamítáme předpoklad normality pro proměnnou výška. předpoklady pro použití Pearsonova korelačního koeficientu byly zamítnuty, je nutno použít např. Spearmanův korelační koeficient. Statgraphics: Tabular Options (žlutá ikona), Rank Correlations

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. korigovaný Spearmanův korelační koeficient

Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů. Pro posouzení korelace mezi váhou a výškou byl z důvodů porušení normality u proměnné výška (χ 2 test dobré shody, p hodnota = 0,021) použit korigovaný Spearmanův korelační koeficient. Pozorovanou hodnotu korelace (0,519) lze na hladině významnosti 0,05 označit za statisticky významnou (p hodnota 0,001).

Děkuji za pozornost!