Měřeí statistické závislosti, korelace, regrese Prof. RNDr. Jaa Zvárov rová,, DrSc. MĚŘENÍZÁVISLOSTI Cílem statistické aalýzy vepidemiologii bývá eje staovit, zda oemocěí závisí a výskytu rizikového faktoru, ale rověž vyjádřit STUPEŇ ZÁVISLOSTI. Stupeň závislosti však staovujeme imezi přízaky aemocí či mezi přízaky samotými. STUPEŇ ZÁVISLOSTI(KORELACI) vyjadřujeme pomocí růzých MĚR STATISTICKÉZÁVISLOSTI, ke kterým patří i KORELAČNÍ KOEFICIENTY. Obecě požadujeme: 0 < míra statistické závislosti < = = NEZÁVISLOST FUNKČNÍZÁVISLOST Obecé pricipy závislost vzájemá souvislost měřeých zaků fukčí závislost x statistická závislost ástroje pro měřeí závislosti lieár rí regrese korelace } kvatitativí zaky 3
Korelace a regrese síla (těsost) závislosti z dvou áhodých veliči: i: korelace symetrický vztah obou veliči i eslouží k předpovp edpovědidi způsob (tvar) závislosti z áhod hodé veličiy iy a jié veliči iě: regrese možost předpovp edpovědidi příklad: výška otce, výška jeho sya (v dospělosti) korelace: jak těst sě spolu souvisejí? populace - všechy dvojice (otec, sy) regrese: : lze z výšky otce odhadout výšku sya? řada populací - syové otců vysokých 70 cm, 7 cm... 4 Korelace -kvatifikace síly lieárí závislosti mezi dvěma kvatitativímu veličiami (Pearsoův) korelačí koeficiet: r = s xy s s x y = ( xi x)( yi y) ( xi x) ( yi y) důležité je zaméko a velikost korelačího koeficietu korelace ezameá příčiost. hodoty posuzujte kriticky 5 Příklady r=-0,8 r=0,45 mortality 00 0 40 60 80 00 0 hmotost 6000 7000 8000 9000 0000 30 35 40 45 latitude 65 70 75 delka 6
Měřeí závislosti pro kvatitativí zaky Kromě stupě závislosti,, který vyjadřuje korelačí koeficiet, se často sažíme zjistit i typ závislostiz vislosti. Orietačě můžeme typ závislostiz posoudit z bodového grafu. Typ závislosti z určuje uje křivka,, kterou můžm ůžeme empirickými body proložit. 7 Korelace 8 Pearsoův korelačí koeficiet měří sílu lieár rí závislosti spojitých veliči i vždy platí: - ρ X,Y v případp padě ormál lího rozděle leí platí: ezávislost X, Y ρ X,Y = 0 odhad pomocí ( xi x )( yi y) rx, Y = ( xi x ) ( y i y) ezávislost zamítáme, me, pokud t t -α/ (-), kde r t = r X, Y 9 3
Grafy 0 Lieár rí regrese -kvalifikace lieárího vztahu mezi dvěma kvatitativímu veličiami Př.: Aalyzujeme data o počtu pracovích hodi za měsíc v aesteziologické službě v závislosti a velikosti spádové oblasti. Nemocice Počet pracovích hodi Spádová populace (v tis.) 304,37 5,50 66,3 94,30 3 39, 83,70 4 85,43 30,70 5 43,77 9,80 6 555,68 80,80 7 383,78 43,40 8 74,7 65,0 9 845,30 74,30 0 5,8 60,80 346,60 39,0 368,33 376,0 Lieár rí regrese - motivačí příklad 4
Lieár rí regrese - regresí přímka Regresí přímka: yi = α + β xi + εi, i =,..., a absolutí čle (itercept) b směrice (slope) e áhodá chyba Př. (pokr.): pracoví doba = α + β velikost populace + ε 3 Lieár rí regrese - odhad parametrů Odhady hodot parametrů α a β se určují metodou ejmeších čtverců. Pricip metody ejmeších čtverců: Za odhad parametrů α a β se berou taková čísla a a b, pro která výraz Se = ( yi ŷi) abývá miimálí hodoty. Zde ŷ i = a + b x i je vyhlazeá hodota y i. Rozdíl y ŷ i i se azývá i-té reziduum. Tzv. reziduálí rozptyl je pak zavede jako Se s = 4 Lieár rí regrese - výpočet odhadů α a β Odhady parametrů a a b: s a = y b x b = s xy x Pomocé výpočty x = x i y = y i s = ( ) xi x s = ( ) yi y x y sxy = ( xi x)( yi y) (s xy je odhad kovariace veliči X a Y) 5 5
Lieár rí regrese - iterpretace výsledků Př.: Obdrželi jsme rovici pracoví doba = 80,658 + 9,49 * velikost populace -výsledek je třeba iterpretovat pouze v rozsahu pozorovaých dat -odhaduté parametry závisejí a použitých datech -můžeme zjistit itervalové odhady skutečých parametrů 6 Graf odhaduté regresí přímky 7 Koeficiet determiace Koeficiet determiace: R = r - měřeí síly závislosti mezi proměými X a Y - míra vhodosti modelu - určuje část variability Y vysvětleou pomocí modelu lieárí regrese! (-R ) 00 % variability Y elze vysvětlit variabilitou X 8 6