ANALÝZA ZÁVISLOSTI. Martina Litschmannová

Podobné dokumenty
Přednáška 10. Analýza závislosti

Dokážete si vybrat správnou nemocnici? aneb Ministr zdravotnictví ML varuje Martina Litschmannová

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Kontingenční tabulky, korelační koeficienty

Jana Vránová, 3. lékařská fakulta UK

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Kontingenční tabulky, korelační koeficienty

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

Statistická analýza jednorozměrných dat

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza dat z dotazníkových šetření

Regresní a korelační analýza

Korelační a regresní analýza

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

12. cvičení z PST. 20. prosince 2017

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

6. Lineární regresní modely

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Regresní a korelační analýza

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Testování statistických hypotéz

Statistika II. Jiří Neubauer

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Tomáš Karel LS 2012/2013

Testování hypotéz o parametrech regresního modelu

Testování statistických hypotéz

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Výběrové charakteristiky a jejich rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

Přednáška X. Testování hypotéz o kvantitativních proměnných

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Regresní a korelační analýza

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Testy statistických hypotéz

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Testy. Pavel Provinský. 19. listopadu 2013

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a aplikovaná statistika

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Pearsonův korelační koeficient

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

NÁHODNÝ VEKTOR. 4. cvičení

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Příklady na testy hypotéz o parametrech normálního rozdělení

MATEMATICKÁ STATISTIKA - XP01MST

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Regresní a korelační analýza

Fisherův exaktní test

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

ADDS cvičení 7. Pavlína Kuráňová

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Téma 22. Ondřej Nývlt

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Tomáš Karel LS 2012/2013

Vícerozměrná rozdělení

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Poznámky k předmětu Aplikovaná statistika, 4. téma

PRAVDĚPODOBNOST A STATISTIKA

Poznámky k předmětu Aplikovaná statistika, 11. téma

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

4EK211 Základy ekonometrie

Příklad: Test nezávislosti kategoriálních znaků

Mnohorozměrná statistická data

Poznámky k předmětu Aplikovaná statistika, 4. téma

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

ANALÝZA ZÁVISLOSTI Martina Litschmannová

Obsah přednášky Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti dvou spojitých proměnných Pearsonův korelační koeficient, Spearmanův korelační koeficient

Analýza závislosti V praxi často u statistických jednotek (pozorovaných osob nebo jiných objektů) zjišťujeme současně řadu znaků. Například spotřeba, objem motoru, hmotnost a zrychlení automobilů, výše mzdy, velikost IQ, hmotnost a výška mužů, školní prospěch a pocit deprese u dětí, apod. Možnosti vyhodnocení: Analýza jednotlivých znaků (každý zvlášť) Analýza závislosti, tj. může zajímat, zda existuje závislost mezi spotřebou automobilu a jeho hmotností, výši mzdy a velikostí IQ, pocitem deprese u dětí a školním prospěchem.

Typ znaku X (příčina) Metody analýzy jednostranné závislosti Jednostranná závislost - znak X působí na znak Y, avšak znak Y již nepůsobí zpětně na znak X. kategoriální kvantitativní Typ znaku Y (důsledek) kategoriální kvantitativní analýza závislosti v kontingenčních, ANOVA resp. v asociačních tabulkách Diskriminační analýza, logistická regrese regresní a korelační analýza Není náplni základního kurzu Pravděpodobnost a statistika!

Analýza závislosti dvou kategoriálních proměnných

Analýza závislosti v kontingenčních tabulkách

Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. místo/stupeň spokojenosti velmi spíše spíše velmi nespokojen nespokojen spokojen spokojen Praha 10 25 50 15 Venkov 20 10 130 40 Výsledky šetření analyzujte.

V jakém formátu obvykle získáváme tento typ dat? Místo Praha Praha Venkov Praha Venkov Venkov Stupeň spokojenosti velmi spokojen spíše spokojen spíše nespokojen spíše spokojen velmi spokojen spíše spokojen Tento převod lze provést pomocí většiny tabulkových procesorů i statistického software. Standardní datový formát místo/stupeň spokojenosti velmi spíše spíše velmi nespokojen nespokojen spokojen spokojen Praha 10 25 50 15 Venkov 20 10 130 40 Kontingenční tabulka

Základní terminologie Se základní terminologii a způsobem testování nezávislosti v kontingenční tabulce se seznamte v řešeném příkladu Analýza závislosti dvou kategoriálních veličin (flash animace).

Co je to kontingenční tabulka? X\Y y 1 y 2 y s Celkem x 1 n 11 n 12 n 1s n 1 x 2 n 21 n 22 n 2s n 2 x r n r1 n r2 n rs n r Celkem n 1 n 2 n s n Schéma rozšířené kontingenční tabulka Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými.

Jak posoudit intenzitu závislosti mezi dvěma kategoriálními proměnnými pomoci explor. analýzy? Grafická analýza Shlukový sloupcový graf, kumulativní sloupcový graf, prostorový sloupcový graf (angl. sky chart), mozaikový graf, 100% skládaný pruhový graf Míry kontingence koeficient kontingence (počet variant obou proměnných je stejný) korigovaný koeficient kontingence, Cramerovo V Čím jsou tyto koeficienty blíže 1, tím je závislost mezi X a Y těsnější.

Míry kontingence Označme: r počet variant proměnné X, s počet variant proměnné Y, s O ij E ij 2 K = σr i=1 σ j=1, kde O E ij jsou pozorované sdružené četnosti ij zapsané v kontingenční tabulce a E ij jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. Koeficient kontingence ( r = s CC 0; 1 ) CC = K K+n

Míry kontingence Označme: r počet variant proměnné X, s počet variant proměnné Y, s O ij E ij 2 K = σr i=1 σ j=1, kde O E ij jsou pozorované sdružené četnosti ij zapsané v kontingenční tabulce a E ij jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. Korigovaný koeficient kontingence CC cor = CC CC max, kde CC max = min r;s 1 min r;s

Míry kontingence Označme: r počet variant proměnné X, s počet variant proměnné Y, s O ij E ij 2 K = σr i=1 σ j=1, kde O E ij jsou pozorované sdružené četnosti ij zapsané v kontingenční tabulce a E ij jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. Cramerovo V V = K n min r;s 1

Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. místo/stupeň spokojenosti velmi spíše spíše velmi nespokojen nespokojen spokojen spokojen Praha 10 25 50 15 Venkov 20 10 130 40 Výsledky šetření analyzujte.

Exploratorní analýza pomocí R pozorované četnosti sdružené relativní četnosti řádkové relativní četnosti sloupcové relativní četnosti

Exploratorní analýza pomocí R Shlukový sloupcový graf

Exploratorní analýza pomocí R Skládaný sloupcový graf

Exploratorní analýza pomocí R Mozaikový graf

Exploratorní analýza pomocí R Mozaikový graf Cramerovo V = 0,296

Exploratorní analýza pomocí Excelu Venkov 20 10 130 40 Praha 10 25 50 15 0% 20% 40% 60% 80% 100% Praha Venkov Velmi nespokojen 10 20 Spíše nespokojen 25 10 Spíše spokojen 50 130 Velmi spokojen 15 40

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) A to musím počítat intervalové odhady pro všechny pravděpodobnosti, které jsou v té tabulce???

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) NE!!! Vždy záleží na tom, co od výstupu analýzy očekáváš! Tohle je jen návrh analýz, které lze provést

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin χ 2 test nezávislosti v kontingenční tabulce H 0 : Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé H A : Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: žádná z očekávaných četností E ij nesmí být menší než 2, alespoň 80 % očekávaných četností E ij musí být větších než 5. Testové kritérium: K = σr i=1 p hodnota = 1 F 0 x OBS, 2 σs O ij E ij j=1 E ij kde F 0 x je distribuční funkce χ 2 rozdělení s r 1 s 1 stupni volnosti.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Yatesova korekce χ 2 testu nezávislosti v kontingenční tabulce H 0 : Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé H A : Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: ---- Testové kritérium: K Yates = σr i=1 σs O ij E ij 0,5 2 j=1 E ij p hodnota = 1 F 0 x OBS, kde F 0 x je distribuční funkce χ 2 rozdělení s r 1 s 1 stupni volnosti. Poznámka: Test má menší sílu testu (oproti χ 2 testu nezávislosti).

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: žádná z očekávaných četností E ij nesmí být menší než 2, alespoň 80 % očekávaných četností E ij musí být větších než 5. Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. POZOR! Nezaměňovat očekávané a pozorované četnosti!!!

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: žádná z očekávaných četností E ij nesmí být menší než 2, alespoň 80 % očekávaných četností E ij musí být větších než 5. A co když předpoklady splněny nebudou??? Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Pokud lze některé varianty proměnné smysluplně sloučit, zkus to udělat. Pokud žádná z očekávaných četností E ij nesmí být menší než 2, ne, nelze výsledky z výběrového šetření alespoň 80 % očekávaných četností zobecnit E ij musí na populaci. být větších Na tento než 5. možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru). Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Pokud lze některé varianty proměnné smysluplně sloučit, zkus to udělat. Pokud ne, nelze výsledky z výběrového šetření zobecnit na populaci. Na tento možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru). Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H 0 : Spokojenost v práci nesouvisí s umístěním závodu. H A : Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. Rozhodnutí: Na hladině významnosti 0,05 zamítáme nulovou hypotézu (χ 2 test nezávislosti v kontingenční tabulce, χ 2 = 26,27, df = 3, p hodnota 0,001). Lze předpokládat, že spokojenost v práci souvisí s umístěním závodu (Cramerovo V = 0,296).

Analýza závislosti v asociačních tabulkách

Asociační tabulky speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) X (okolnosti)\y(výskyt události) y 1 (úspěch) y 2 (neúspěch) Celkem x 1 (I.) a b a + b x 2 (II.) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky

Asociační tabulky speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Asociační tabulky Na asociační tabulku lze sice nahlížet jako na speciální případ kontingenčních tabulek a při analýze používat jejich aparát, nicméně vhodnější je využít specifické metody a charakteristiky asociace. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Poměr šancí OR (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) Pozorovaný poměr počtu úspěchů k počtu neúspěchů (tzv. pozorovaná šance) za okolností I. je a, za okolností II. c. Odhad poměru šancí je pak b d OR = ad. bc X (okolnosti)\y(výskyt události) y 1 (úspěch) y 2 (neúspěch) Celkem x 1 (I.) a b a + b x 2 (II.) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky

Míry asociace Poměr šancí OR (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) Pozorovaný poměr počtu nemocných k počtu zdravých (tzv. pozorovaná šance) u exponované populace je a b, u neexponované populace c d. Odhad poměru šancí je pak OR = ad bc. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Lze očekávat přibližně 6 novorozeneckých úmrtí na 1 000 přeživších novorozenců s normální porodní hmotností. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je a b = 618 4 597 = 0,134, což odpovídá přibližně 134 novorozeneckým úmrtím na 1 000 přeživších novorozenců s nízkou porodní váhou. Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. c d = 422 67 093 = 0,006

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je a b = 618 4 597 = 0,134, Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. c = 422 = 0,006. d 67 093 OR = ad bc 618 67 093 = = 0,134 4 597 422 0,006 21,4 šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou.

Míry asociace Poměr šancí OR (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) OR = ad bc. 0R < 1 OR = 1 OR > 1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. U exponované populace je vyšší šance výskytu nemoci. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Poměr šancí OR (angl. odds ratio ), nazýváno také křížový poměr (angl. cross product ratio ) OR = ad bc. 0R < 1 OR = 1 OR > 1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. U exponované populace je vyšší šance výskytu nemoci. Je-li OR 1, potřebujeme zpravidla ještě rozhodnout, zda je indikována asociace statisticky významná. Woolfova metoda: 100 1 α % intervalový odhad OR : OR e 1 a +1 b +1 c +1 d z 1 α 2; OR e 1 a +1 b +1 c +1 d z 1 α 2. Jestliže 100 1 α % intervalový odhad OR nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 OR 21,4 šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou. 95% intervalový odhad OR je dán vztahem OR e 1 a +1 b +1 c +1 d z 0,975 ; OR e 1 a +1 b +1 c +1 d z 0,975. z 0,975 = 1,64 (0,975 kvantil normovaného normálního rozdělení) Po dosazení: 95% intervalový odhad OR je 19,2; 23,8. Je zcela zřejmé, že šance novorozeneckého úmrtí statisticky významně závisí na porodní váze 1 19,2; 23,8.

Míry asociace Absolutní riziko (angl. absolute risk ) výskytu události (onemocnění, úmrtí, ) v závislosti na okolnostech (přítomnosti sledovaného faktoru) odhad absolutního rizika (=pravděpodobnosti) onemocnění u exponovaných respondentů je a a+b, odhad absolutního rizika (=pravděpodobnosti) onemocnění u neexponovaných respondentů je c c+d. Absolutní rizika mohou nabývat hodnot z intervalu 0; 1. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko RR (angl. relative risk ) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. RR = a a+b c c+d = a c+d c a+b. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní a hmotností je = 618 = 0,119, a+b 5 215 tj. novorozenecké úmrtí lze očekávat u cca 119 z 1 000 novorozenců s nízkou porodní váhou), u dětí s normální porodní hmotností je absolutní riziko: 0,006, c = 422 = c+d 67 515 tj. novorozenecké úmrtí lze očekávat u cca 6 z 1 000 novorozenců s normální porodní váhou.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní a hmotností je = 618 = 0,119, a+b 5 215 u dětí s normální porodní hmotností je absolutní riziko: 0,006, c = 422 = c+d 67 515 Odhad relativního rizika novorozeneckého úmrtí RR = a c+d = 0,119 = 19,0. c a+b 0,006 Ve sledovaném období bylo u dětí s nízkou porodní váhou cca 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou.

Míry asociace Relativní riziko RR (angl. relative risk ) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. RR = a c+d c a+b. RR < 1 RR = 1 RR > 1 Expozice snižuje riziko onemocnění. Mezi expozici a onemocněním neexistuje žádná asociace. Expozice zvyšuje riziko onemocnění. X (sledovaný faktor)\y(výskyt onemocnění) D (ANO) ഥD (NE) Celkem E (přítomnost faktoru) a b a + b തE (nepřítomnost faktoru) c d c + d Celkem a + c b + d n Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko RR (angl. relative risk ) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. RR = a c+d c a+b. RR < 1 RR = 1 RR > 1 Expozice snižuje riziko onemocnění. Mezi expozici a onemocněním neexistuje žádná asociace. Expozice zvyšuje riziko onemocnění. Je-li RR 1, musíme rozhodnout, zda je indikována asociace statisticky významná. Katzova metoda: 100 1 α % intervalový odhad RR: RR e b a a+b + d c c+d z 1 α 2; RR e b a a+b + d c c+d z 1 α 2. Jestliže 100 1 α % intervalový odhad RR nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 Celkem 1 040 71 690 72 730 Odhad relativního rizika novorozeneckého úmrtí RR = 19,0 ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou. 95% intervalový odhad RR je dán vztahem RR e b a a+b + d c c+d z 1 α 2; RR e b a a+b + d c c+d z 1 α 2. z 0,975 = 1,64 (0,975 kvantil normovaného normálního rozdělení) Po dosazení: 95% intervalový odhad RR je 17,1; 21,0. Je zcela zřejmé, že riziko novorozeneckého úmrtí statisticky významně závisí na porodní váze 1 17,1; 21,0.

Simpsonův paradox aneb pozor na posuzování tabulek, které se skládají ze dvou či více skupin

V Horních Sádrovicích bylo hospitalizováno 600 lehkých pacientů, z nichž 10 (1,7 %) zemřelo a 400 těžkých pacientů, z nichž zemřelo 190 (47,5 %). Ve Staré Dláze bylo hospitalizováno 900 lehkých pacientů, z nichž 30 (3,2 %) zemřelo a 100 těžkých pacientů, z nichž zemřelo 100 (10,0 %). Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000)

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Kontingenční tabulky rozšířené o marginální četnosti a řádkové rel. četnosti

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000)???

Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) celkem 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 30 100 0, 700 (70/100) 0,300 (30/100) celkem 100 900 1 000 0, 100 (100/1000) 0,900 (900/1000) Simpsonův paradox

Simpsonův paradox Jedná se o situaci, kdy se závislost mezi dvěma znaky kvalitativně změní, jestliže uvážíme vliv znaku třetího (skrytého). (Např. vztah mezi úmrtnosti pacientů a místem léčby (Horní Sádrovice vs. Stará Dláha), vezmeme-li v úvahu stav pacienta při přijetí do nemocnice.) Důvodem je silná závislost mezi jedním z dvou analyzovaných znaků a znakem skrytým.

Simpsonův paradox Zajímavé odkazy: 1) http://koroptew.blogspot.com/2010/11/zlocin-statistika.html 2) Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken: John Wiley and Sons. ISBN 0-471-36093-7. 3) Blyth, C. R. (1972). On Simpson's paradox and the sure-thing principle. Journal of the American Statistical Association, 67, 364-366. 4) Davis, L. J. (1989). Intersection union tests for strictly collapsibility in three-dimensional contingency tables. Annals of Statistics, 17, 1693-1708. 5) Dong, J. (1998). Simpson's paradox. Pp. 4108-4110 in Encyclopedia of Biostatistics, vol. 5. Chichester: John Wiley and Sons. 6) Pavlides, M. G., Perlman, M. D. (2009). How likely is Simpson's paradox? The American Statistician, 63, 226-233. 7) Samuels, M. L. (1993). Simpson's paradox and related phenomena. Journal of the American Statistical Association, 88, 81-88. 8) Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, 238-241. 9) Wagner, C. H. (1982). Simpson's paradox in real life. The American Statistician, 36, 46-48. 10) Wardrop, R. L. (1995). Simpson's paradox and the hot hand in basketball. The American Statistician, 49, 24-28.

Analýza závislosti dvou numerických proměnných

Malé opakování z pravděpodobnosti Co je to kovariance? Kovariance cov X, Y je definována jako smíšený centrální moment řádu 1 + 1. cov X, Y = E X E X Y E Y Vlastnosti kovariance 1. cov X, Y = E X Y E X E Y (výpočetní vztah), 2. cov X, X = D X, 3. cov a 1 X + b 1, a 2 Y + b 2 = a 1 a 2 cov X, Y, 4. jsou-li X, Y jsou nezávislé náhodné veličiny, pak cov X, Y = 0.

Malé opakování z pravděpodobnosti Co je to korelační koeficient? Korelační koeficient ρ X, Y je mírou lineární závislosti dvou náh. veličin. ρ X, Y = cov X, Y, DX, DY 0, DX DY 0 jinak. Vlastnosti korelačního koeficientu 1. 1 ρ X, Y 1, 2. ρ X, Y = ρ Y, X, 3. ρ X, X = 1, 4. jsou-li X, Y nezávislé náhodné veličiny, pak ρ X, Y = 0, 5. je-li ρ X, Y = 0, říkáme, že X, Y jsou nekorelované náhodné veličiny, 6. je-li ρ X, Y = 1, pak existuje a, b R, a > 0 takové, že Y = ax + b s pravd. 1 7. je-li ρ X, Y = 1, pak existuje a, b R, a < 0 takové, že Y = ax + b s pravd. 1 8. je-li ρ X, Y > 0, říkáme, že X, Y jsou pozitivně korelované (s rostoucím X roste Y), 9. je-li ρ X, Y < 0, říkáme, že X, Y jsou negativně korelované (s rostoucím X klesá Y).

Malé opakování z pravděpodobnosti ρ X, Y =1,000 ρ X, Y = -1,000 ρ X, Y =0,000 ρ X, Y =0,934 ρ X, Y =0,967 ρ X, Y =0,857 ρ X, Y =-0,143 ρ X, Y =0,608 Ověřit si, zda máte představu o významu korelačního koeficientu, můžete ZDE (jar).

Malé opakování z pravděpodobnosti Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Malé opakování z pravděpodobnosti Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Pearsonův korelační koeficient Korelační koeficient ρ dokážeme určit pouze tehdy, známe-li sdružené rozdělení náhodného vektoru X; Y. Nechť X 1 ; Y 1,, X n ; Y n je výběr z dvourozměrného normálního rozdělení, tj. z rozdělení, jehož sdružená hustota pravděpodobnosti je dána vztahem f x; y = 1 2πσ X σ Y 1 ρ 2 e 2 1 x μ X 2 1 ρ 2 2ρ x μ X y μ Y σ X σ X σ Y + y μ 2 Y σ Y. Pak lze odhad korelačního koeficientu ρ určit jako r = kde S XY = 1 σ n n 1 i=1 S XY S X 2 S Y 2, S X 2, S Y 2 0, 0 jinak, X i തX Y i തY = σ n i=1 σ n i=1 X 2 i n തX 2 σ i=1 Xi Y i n തX തY. n Y 2 i n തY 2

Pearsonův korelační koeficient Nechť X 1 ; Y 1,, X n ; Y n rozdělení. je výběr z dvourozměrného normálního Zjistíme-li, že výběrový korelační koeficient r 0, zpravidla nás zajímá, zda je indikovaná korelace statisticky významná. Chceme testovat nulovou hypotézu H 0 : ρ = 0 vůči alternativě H A : ρ 0, resp. ρ < 0, resp. ρ > 0. Testová statistika: T = r n 2 1 r 2 má za předpokladu platnosti H 0 Studentovo rozdělení s n 2 stupni volnosti. Poznámka: Jsou-li složky náhodného vektoru X; Y s dvourozměrným normálním rozdělením nekorelované, jsou nezávislé. (POZOR! Obecně to neplatí.)

Spearmanův korelační koeficient Mějme náhodný výběr X 1 ; Y 1,, X n ; Y n z dvourozměrného rozdělení. Nechť R X1,, R Xn jsou pořadí veličin X 1,, X n a nechť R Y1,, R Yn jsou pořadí veličin Y 1,, Y n. r S = 1 6 σ n n n 2 1 i=1 R X1 R Y1 2 Pokud se v náhodných výběrech, z nichž je r S počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient r Skorig. r Skorig = 1 6 σn n 3 n T X T i=1 Y R X1 R Y1 2

Srovnání Pearsonova a Spearmanova korel. koeficientu ρ X, Y = 1,000 ρ X, Y = -1,000 ρ X, Y = 0,000 ρ X, Y = 0,934 ρ S X, Y = 1,000 ρ S X, Y = -1,000 ρ S X, Y = 0,000 ρ S X, Y = 1,000 ρ X, Y = 0,967 ρ X, Y = 0,857 ρ X, Y = -0,143 ρ X, Y = 0,608 ρ S X, Y = 0,981 ρ S X, Y = 0,893 ρ S X, Y = -0,178 ρ S X, Y = 0,911

Spearmanův korelační koeficient Mějme náhodný výběr X 1 ; Y 1,, X n ; Y n z dvourozměrného rozdělení. Nechť R X1,, R Xn jsou pořadí veličin X 1,, X n a nechť R Y1,, R Yn jsou pořadí veličin Y 1,, Y n. Pokud se v náhodných výběrech, z nichž je r S počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient r Skorig. r Skorig = 1 6 n σ n 3 n T X T i=1 Y R X1 R Y1 2, kde T X = 1 2 σ t X 3 t X, T Y = 1 2 σ t Y 3 t Y, kde t X jsou rozsahy skupin stejně velkých X-ových hodnot. Obdobně definujeme t Y.

Spearmanův korelační koeficient Je-li hodnota Spearmanova korelačního koeficientu r S blízká nule, chceme zpravidla testovat, zda je odchylka koeficientu r S od nuly náhodná či statisticky významná. H 0 : X, Y jsou nezávislé náhodné veličiny. H A : X, Y jsou závislé náhodné veličiny. Testová statistika: r S Nulovou hypotézu zamítáme pokud r S r S α, kde r S α je kritická hodnota Spearmanova korelačního koeficientu. Pro rozsah výběru n 30 a hladiny významnosti 0,05, resp. 0,01 jsou kritické hodnoty r S α; n tabelovány (tabulka T16). Je-li rozsah výběru n > 30, pak kde z 1 α 2 je 1 α 2 r S α; n = z 1 α 2 n 1, kvantil normovaného normálního rozdělení.

Děkuji za pozornost!