Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Podobné dokumenty
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Přednáška X. Testování hypotéz o kvantitativních proměnných

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

KGG/STG Statistika pro geografy

Jana Vránová, 3. lékařská fakulta UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování statistických hypotéz

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Přednáška IX. Analýza rozptylu (ANOVA)

Korelace. Komentované řešení pomocí MS Excel

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

KORELACE. Komentované řešení pomocí programu Statistica

Tomáš Karel LS 2012/2013

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Kontingenční tabulky, korelační koeficienty

Testy statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Regresní a korelační analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Statistická analýza jednorozměrných dat

Charakteristika datového souboru

META-ANALÝZA Z POHLEDU STATISTIKA. Medicína založená na důkazu - Modul 3B

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

8 Coxův model proporcionálních rizik I

Kontingenční tabulky, korelační koeficienty

Pravděpodobnost a matematická statistika

Aplikovaná statistika v R - cvičení 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

6. Lineární regresní modely

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

Statistické metody uţívané při ověřování platnosti hypotéz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testování hypotéz a měření asociace mezi proměnnými

KGG/STG Statistika pro geografy

Analýza dat na PC I.

= = 2368

Testování statistických hypotéz

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Fisherův exaktní test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Zápočtová práce STATISTIKA I

Epidemiologické metody

Neparametrické metody

Ranní úvahy o statistice

Statistika, Biostatistika pro kombinované studium. Jan Kracík

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Tomáš Karel LS 2012/2013

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

y = 0, ,19716x.

Cvičení 12: Binární logistická regrese

Regresní a korelační analýza

Testování hypotéz o kvalitativních proměnných

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Příklady na testy hypotéz o parametrech normálního rozdělení

Pearsonův korelační koeficient

12. cvičení z PST. 20. prosince 2017

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Porovnání dvou výběrů

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Korelační a regresní analýza

pravděpodobnosti, popisné statistiky

Regresní a korelační analýza

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Lineární regrese. Komentované řešení pomocí MS Excel

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

VŠB Technická univerzita Ostrava BIOSTATISTIKA

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Transkript:

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Opakování Testování hypotéz o podílech V čem se liší konstrukce intervalů spolehlivosti a testování hypotéz při rozhodování o podílech (zastoupení úspěchů v náhodném výběru)?

Opakování Fisherůvexaktní test Jak funguje Fisherůvexaktní test? Veličina X Veličina Y Y Y 2 Celkem X a b a +b X 2 c d c+ d Celkem a+ c b+ d n

Opakování Chí kvadrát test dobré shody Lze použít chí kvadrát test dobré shody na testování normality dat? Pokud ano, jak?

. Vyjádření rizik ve čtyřpolní tabulce

Motivace Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 5 44 Ne 730 24 8542 Celkem 7330 256 8586 Pomocí Pearsonova chí kvadrát nebo Fisherova exaktního testu můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale neumožňují tento vztah kvantifikovat. Má li to smysl a chceme li kvantifikovat (rozhodovat o těsnosti této závislosti) můžeme použít tzv. relativní riziko a poměr šancí.

Relativní riziko Relative risk Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách.. skupina experimentální nebo skupina s expozicí určitému faktoru 2. skupina kontrolní nebo skupina bez expozice RR Pravděpodobnost výskytu jevu v. skupině (experimentální) P Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) P0 Sledovaný jev Skupina Experimentální Kontrolní Celkem Ano a b a +b Ne c d c+ d Celkem a+ c b+ d n RR P P 0 a a + b c b + d

Příklad relativní riziko Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 5 44 Ne 730 24 8542 Celkem 7330 256 8586 RR P P 0 a a + b c b + d 29 29 + 5 730 5 + 24 2,97 Riziko výskytu SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku.

Poměr šancí Odds ratio Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt sledovaného jevu ve dvou různých skupinách.. skupina experimentální nebo skupina s expozicí určitému faktoru 2. skupina kontrolní nebo skupina bez expozice OR Pravděpodobnost výskytu jevu v. skupině (experimentální) Pravděpodobnost výskytu jevu v. skupině (experimentální) Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) O O 0 P P P0 P 0 Sledovaný jev Skupina Experimentální Kontrolní Celkem Ano a b a +b Ne c d c+ d Celkem a+ c b+ d n P P OR P0 P 0 a b c d

Příklad odds ratio Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 5 44 Ne 730 24 8542 Celkem 7330 256 8586 OR P P P0 P 0 a b c d 29 730 5 24 2,98 Šance na výskyt SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku.

Grafické srovnání RR a OR Výskyt sledovaného jevu A B Bez výskytu sledovaného jevu RR 2 6 6 0 3 OR 4 3. 5 3 0 7

Umělý příklad pití slazených nápojů Sledujeme vliv pití slazených nápojů na výskyt zubního kazu. Výsledky dány v tabulce: Zubní kaz Pití slazených nápojů Ano Ne Celkem Ano 34 9 53 Ne 6 3 47 Celkem 50 50 00 a 34 a 34 RR a + 34 +,79 9 6 b c OR 6 3, 47 b c 9 b + d 9 + 3 d 3

Srovnání RR a OR Hodnoty, jakých může nabývat RR i OR, souvisí s četností výskytu sledované události v kontrolní (referenční) skupině.

Výhody a nevýhody RR a OR Nevýhoda OR: obtížná interpretace. Výhoda i nevýhoda RR: nezajímá ho samotná pravděpodobnost výskytu jevu, ale pouze jejich podíl korektní použití RR je však pouze v případě, že pravděpodobnost výskytu jevu v kontrolní skupině je reprezentativní (není ovlivněna výběrem sledovaných subjektů).

Prospektivní a retrospektivní studie Prospektivní studie U některých subjektů je rizikový faktor přítomen a u jiných ne sledujeme v čase, zda se vyskytne událost. Retrospektivní studie U některých subjektů se událost vyskytla a u jiných ne zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor.

Použití RR a OR Prospektivní studie u některých subjektů je rizikový faktor přítomen a u jiných ne sledujeme, zda se vyskytne událost. Zjištěná pravděpodobnost výskytu události v kontrolní skupině je reprezentativní, neboť prospektivně zařazujeme všechny pacienty korektní použití RR. Retrospektivní studie u některých subjektů se událost vyskytla a u jiných ne zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. Zjištěná pravděpodobnost výskytu události v kontrolní skupině není reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů. nekorektní použití RR. korektní použití OR.

Srovnávané skupiny Pomocí RR i OR můžeme srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách:. skupina s pravděpodobností výskytu události P : experimentální skupina např. léčená novou léčbou riziková skupina např. hypertonici skupina s expozicí určitému faktoru např. horníci 2. skupina s pravděpodobností výskytu události P 0 : kontrolní skupina skupina bez expozice

Intervalové odhady RR i OR jsou variabilní stejně jako četnosti v kontingenční tabulce bodový odhad je tak vhodné doplnit 00( α)% intervalem spolehlivosti. Lze ukázat, že pro nepříliš malé hodnoty a, b, c, d má přirozený logaritmus RR (lnrr) i přirozený logaritmus OR (lnor) normální rozdělení. Pak platí: SE(ln RR) + SE(ln OR) + + + a a + c b b + d a b c 00( α)% IS pro přirozené logaritmy: d ( d, h ) ln RR ± z α / 2SE(ln RR) ( d, h ) lnor ± z α / 2SE(lnOR) 00( α)% IS pro RR a OR: ( d RR, h RR ) (exp( d ),exp( h )) ( d OR, h OR ) (exp( d ),exp( h ))

Příklad intervalové odhady Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS): SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 5 44 Ne 730 24 8542 Celkem 7330 256 8586 Logaritmická transformace: 29 /(29 + 730) RR 5/(5 + 24) OR 29 / 730 5/24 2,98 2,97 SE(ln RR) SE(lnOR) 29 29+ 730 + 5 5+ 24 29 + 5 + 730 + 24 0,38 0,37 ( d ( d, h, h ) ),089 ±,960,37 (0,47;,7),092 ±,960,38 (0,47;,72) Zpětná transformace: ( d ( d RR OR, h, h RR OR ) (exp( d ) (exp( d ),exp( h ),exp( h )) (,60;5,53) )) (,60;5,58)

Další způsoby vyjádření rozdílu rizika Relativní redukce rizika (RRR) Absolutní redukce rizika (ARR) 3 0 5 0 RRR RR 0.6 40% Bez léčby S léčbou ARR 5 0 3 0 0.2 20%

Další způsoby vyjádření rozdílu rizika Počet pacientů, které je potřeba léčit, abychom zabránili výskytu jedné události number needed to treat (NNT). ARR 20% Pro snížení počtu událostí o 20 je třeba léčit 00 pacientů. NNT 0,2 00 20 5 NNT Pro snížení počtu událostí o je třeba léčit 5 pacientů.

Absolutní vs. relativní četnost Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící. Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie : Výskyt CMP ve skupině A je 2 %, ve skupině B je 20 %. Relativní změna v účinnosti 40 %; absolutní změna 8 %. Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je,5 %. Relativní změna v účinnosti 40 %; absolutní změna 0,6 %. Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti.

NNT a absolutní vs. relativní četnost Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie : Výskyt CMP ve skupině A je 2 %, ve skupině B je 20 %. Relativní změna v účinnosti 40 %; absolutní změna 8 %. NNT 0,08 00 8 2,5 NNT Pro snížení počtu událostí o je třeba léčit 3 pacientů. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je,5 %. Relativní změna v účinnosti 40 %; absolutní změna 0,6 %. NNT 0,006 00 0,6 66,7 NNT Pro snížení počtu událostí o je třeba léčit 67 pacientů.

2. Hodnocení vztahu dvou spojitých veličin základy korelace

Proč hodnotit vztah dvou spojitých veličin? Zatím jsme se zabývali spojitou veličinou v jedné skupině, spojitou veličinou ve více skupinách, diskrétní veličinou v jedné skupině, diskrétní veličinou ve více skupinách, dvěma diskrétními veličinami v jedné skupině. Teď se chceme zabývat dvěma spojitými veličinami v jedné skupině:. Chceme zjistit, jestli mezi nimi existuje vztah např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny. 2. Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiných veličin. 3. Chceme kvantifikovat vztah mezi dvěma spojitými veličinami např. pro použití jedné veličiny na místo druhé veličiny.

Jak hodnotit vztah dvou spojitých veličin? Nejjednodušší formou je bodový graf (x y graf). Vztah výšky a váhy studentů Biostatistiky pro matematické biology jaro 200:

Korelace Korelační koeficient kvantifikuje míru vztahu mezi dvěma spojitými veličinami (X a Y). Standardní metodou je výpočet Pearsonova korelačního koeficientu (r). Nabývá hodnot od do. Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y, a naopak je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y. Charakterizuje linearitu vztahu mezi X a Y jinak řečeno variabilitu kolem lineárního trendu. Hodnoty nebo získáme, když body x y grafu leží na přímce.

Pearsonův korelační koeficient (r) Předpokládáme realizaci dvourozměrného náhodného vektoru o rozsahu n: (máme dvojice hodnot, které patří k sobě charakterizují i tý subjekt) Pearsonůvkorelační koeficient: kde jsou výběrové průměry, jsou výběrové směrodatné odchylky. n n y x y x y x,,, 2 2 K y x n i i i n i i n i i n i i i s s n nx y y x y y x x y y x x r ) ( ) ( ) ( ) )( ( 2 2 x y a y x s s a

Pearsonův korelační koeficient (r) r,0 r 0,9 r 0,4 r 0,05

Příklad Pearsonův korelační koeficient (r) Vztah výšky a váhy studentů Biostatistiky pro matematické biology jaro 200: r i i nx y 48 47,2 s s x y n x 5,3 2,5 ( n ) s i n y i x i y i nx y x s y 48 929 r 48 929 48 47,2 (3 )5,32,5 0,64

Problémy s výpočtem r Pearsonůvkorelační koeficient lze vypočítat na jakýchkoliv datech. Pokud však budeme chtít jakkoliv rozhodovat o vlastnostech r (interval spolehlivosti, testování hypotéz), musíme učinit předpoklad o normalitě hodnocených veličin. Více skupin Nelineární vztah Velikost výběru r 0,93 p < 0,00 r 0,63 p < 0,00 r 0,23 p 0,09

Interval spolehlivosti pro r Výběrové rozdělení koeficientu r není normální, pro výpočet IS je třeba ho transformovat: Veličina w má normální rozdělení se standardní chybou přibližně: 00( α)% IS pro w má tvar: w 2 + ln r r ( d, h ) w ± z α / 2 / n 3 SE( w) / n 3 00( α)% IS pro r pak dostaneme zpětnou transformací: exp(2d d, h) exp(2d ) exp(2h ; ) + exp(2h ( ) ) +

Příklad interval spolehlivosti pro r Vztah výšky a váhy studentů Biostatistiky pro matematické biology jaro 200: r 0,64 w SE( w) / ( d + 0,64 ln 0,758 2 0,64, h ) w ± z 0 0,36 α / 2 SE( w) (0,38;,377) exp(2d ) exp(2h d, h) ; exp(2d ) + exp(2h ( d, h) (0,4;0,88) ( ) ) +

Test hypotézy H 0 : r 0 Předpokládáme realizaci dvourozměrného náhodného vektoru o rozsahu n: x y x, y 2 2 x, K, y n n Předpokládáme normalitu X i Y! Za platnosti nulové hypotézy má statistika pravděpodobnosti s n 2 stupni volnosti. T r n 2 2 r t rozdělení Pro oboustrannou alternativu zamítáme H 0 na hladině významnosti α 0,05, když hodnota testové statistiky přesáhne v absolutní hodnotě kvantil ( n 2) t α / 2 Tuto testovou statistiku nelze použít pro testování hypotézy H 0 : r r0 0

Příklad test hypotézy H 0 : r 0 Vztah výšky a váhy studentů Biostatistiky pro matematické biology jaro 200: r 0,64 T r n 2 3 2 0,64 2 2 r 0,64 2,76 H : r 0 ( 2) () t n α / 2 t0,975 2,20 T 2,76 > 2,20 t () 0,975 Zamítáme H 0 : r 0.

Spearmanůvkorelační koeficient (r s ) Pearsonůvkorelační koeficient je náchylný k odlehlým hodnotám a obecně odchylkám od normality. Spearmanůvkorelační koeficient stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. x Máme náhodný výběr rozsahu n: y Definujeme: x ri pořadí x i mezi hodnotami x; y ri pořadí y i mezi hodnotami y; d i x ri y ri. Spearmanůvkorelační koeficient: r s x, y 2 6 d i i 2 n( n ) Vyskytují li se shodné hodnoty, doporučuje se použití Pearsonova korelačního koeficientu na pořadích. Hodnoty r s se pohybují stejně jako u r od do. n 2 2 x, K, y n n

Příklad Spearmanůvkorelační koeficient (r s ) Vztah výšky a váhy studentů Biostatistiky pro matematické biology jaro 200: Student Výška x i Pořadí výška Váha y i Pořadí váha Rozdíl d i d i 2 75 0 69 0 0 0 2 66 55 3 2 4 3 70 4 67 8 4 6 4 69 2,5 52,5 2,25 5 88 3 90 2,5 0,5 0,25 6 75 0 53 2 8 64 7 76 2 57 4,5 7,5 56,25 8 7 5 57 4,5 0,5 0,25 9 73 6,5 68 9 2,5 6,25 0 75 0 73 73 6,5 62 6 0,5 0,25 2 74 8 90 2,5 4,5 20,25 3 69 2,5 63 7 4,5 20,25

Příklad Spearmanůvkorelační koeficient (r s ) V souboru je hodně shodných hodnot lépe použít Pearsonovo r na pořadí. Student Pořadí výška Pořadí váha Rozdíl d i d i 2 0 0 0 0 2 3 2 4 3 4 8 4 6 4 2,5,5 2,25 5 3 2,5 0,5 0,25 6 0 2 8 64 7 2 4,5 7,5 56,25 8 5 4,5 0,5 0,25 9 6,5 9 2,5 6,25 0 0 6,5 6 0,5 0,25 2 8 2,5 4,5 20,25 3 2,5 7 4,5 20,25 r nx y 637 s s 72,5 637 r 0,47 (3 )3,863,88 r s x y n i x i 3,86 3,88 ( n ) s i n y i x i y 72,5 n nx y s 2 6 d i i 2 n( n ) i x y 69 3(3 ) 2 0,48

Jak to, že nám r a r s vyšly různě? Původní hodnoty: r 0,64 Pořadí: r 0,47 r s 0,48

IS pro r s a test hypotézy H 0 : r s 0 Výběrové rozdělení r s je pro výběry s n >0 stejné jako výběrové rozdělení r, proto je možné pro konstrukci 00( α)% IS použít metodu pro Pearsonův koeficient. Pro větší vzorky, n > 30, je možné použít pro ověření hypotézy H 0 : r s 0 stejnou testovou statistiku jako v případě r: T r s n r 2 ~ ( n 2) t 2 s

Poznámka o r 2 Korelace dvou náhodných veličin se často interpretuje pomocí druhé mocniny Pearsonova korelačního koeficientu: r 2. Hodnota r 2 vyjadřuje, kolik % své variability sdílí jedna veličina s druhou, jinak řečeno, kolik % variability jedné veličiny může být predikováno pomocí té druhé. S hodnotou r 2 se setkáte v lineárních modelech.

Klíčové principy zkreslení Pojem zavádějící faktor pro zavádějící faktor současně platí, že přímo nebo nepřímo ovlivňuje sledovaný následek, je ve vztahu se studovanou expozicí, není mezikrokem mezi expozicí a následkem. Zavádějící faktor Expozice Následek

Poděkování Rozvoj studijního oboru Matematická biologie PřFMU Brno je finančně podporován prostředky projektu ESF č. CZ..07/2.2.00/07.038 Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky