Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
Přednáška 6 závislost veličin, závěrečné poznámky Kontingenční tabulka Dvouvýběrový t-test (a analýza rozptylu) Prezentace statistických výsledků
Vztah dvou veličin popisná statistika Obě diskrétní kategoriální četnosti (kontingenční tabulka) Jedna metrická, jedna kategoriální tabulky charakteristik podle hodnot kategoriální veličiny krabicové grafy
Data po předzpracování (výsek) pohlavi odd den_vtydnu vek dny_hosp m CH ST 89 14 m INT CT 81 14 z INT ST 60 11 m INT PO 65 11 z INT UT 88 9 z INT UT 96 9 z G PA 27 8 z CH SO 75 8 m CH NE 80 8 z CH UT 91 8 m INT PO 28 8 z INT PO 28 8 m INT PO 28 8 m INT PO 85 6 m INT PO 85 6 z INT UT 96 6
Závislost dvou diskrétních nemetrických veličin kontingenční tabulka - četnosti pohlavi odd m z Total CH 116 80 196 G 0 58 58 INT 194 166 360 Total 310 304 614
Závislost dvou diskrétních nemetrických veličin kontingenční tabulka četnosti - grafické znázornění 200 180 160 140 120 100 80 60 40 20 0 z CH G INT m
Jedna metrická, jedna kategoriální 100 90 80 70 60 vek 50 40 30 20 10 0 m z
Popisná statistika těmito výsledky končí, více nemůže poskytnout Induktivní statistika poskytne více ukážeme na příkladech
Kontingenční tabulky test nezávislosti dvou kategoriálních veličin x 1 x 2... x j... x C n i. y 1 n 11 n 12 n 1j n 1C n 1. y 2 n 21 n 22 n 2C n 2. Y : : : : : y i n i1 n ij n ic n i. : : : : : y R n R1 n R2 n Rj n RC n R. n.1 n.2 n.j n.c n.. = n X n i C = n j= 1 ij n j R = n i= 1 ij R C R C ij i i= 1 j= 1 i= 1 j= 1 n = n = n = n j
Pro nezávislé veličiny X,Y platí: [ ] Y y ) ( X x ) P( Y y ). P( X x ) P = = = = = ( i j i j zavedeme zkratky [ ] ( ) ( ) p = P Y = y X = x ij i j p = P = i ( Y yi ) p = P = j ( X x j ) p = p. p ij i j
H0: X, Y nezávislé Odhady marginálních pravděpodobností: p i ni = p n Očekávané četnosti při nezávislosti: e n p n n n n n i j i j ij = ij = = n n n Testové kriterium 2 χ = i= 1 j= 1 ( ) ij ij R C n e e ij j = 2 n j n 2 ~ χ( R ) ( C ) 1 1
Kdy zamítnout H0? kritický obor pro testové kriterium: 2 W = χ( R 1)( C 1)(1 α), + n=4 f(x) ) 0.15 n=10 0.000 0 2 4 7 9 11 13 16 18 20 x
Když zamítneme H0: standardizovaná residua ( n e )/ e ij ij ij mají přibližně normované normální rozdělení, tj. pokud je absolutní hodnota standardizovaného residua > 2, je odchylka pozorované četnosti od očekávané významná
Míry těsnosti závislosti X,Y Koeficient Φ Φ= χ 2 n Cramerovo V V = Φ 2 min( RC, ) Pearsonův koeficient kontingence C = 2 χ 2 χ + n Čuprovův koeficient kontingence T = ( R 2 Φ 1)( C 1)
Výsledky pro odd, pohlavi Counts Section pohlavi odd m z Total CH 116 80 196 G 0 58 58 INT 194 166 360 Total 310 304 614 Expected Counts Assuming Independence Se pohlavi odd m z Total CH 99 97 196 G 29.3 28.7 58 INT 181.8 178.2 360 Total 310 304 614
Chi-Square 66.737764 Degrees of Freedom 2 Probability Level 0.000000 Phi 0.329687 Cramer's V 0.329687 Pearson's Cont. Coeff 0.313109 Tschuprow's T 0.277232 Standardized Residual Section pohlavi odd m z Total CH 1.71-1.73 0 G -5.41 5.46 0 INT 0.91-0.92 0 Total 0 0 0
V tabulce je strukturální nula, dopředu jsme věděli, že počet pacientů-mužů na gynekologii je roven 0 vynecháme odd = G Chi-Square Statistics Section Chi-Square 1.442225 Degrees of Freedom 1 Probability Level 0.22978 Phi 0.050931 Cramer's V 0.050931 Pearson's Contingency Coefficient 0.050865 Tschuprow's T 0.050931 Standardized Residual Section pohlavi odd m z CH 0.64-0.72 INT -0.47 0.53
Dvouvýběrový t-test dvě populace, normálně rozdělené 2 N ( µ, σ ) 1 1 2 N ( µ, σ ) 2 2 když jsou rozptyly shodné, pak T = X X ( µ µ ) 1 2 1 2 ( ) ( ) 2 2 n1 1 s1 + n2 1 s2 1 1 + n1 + n2 2 n1 n2 ~ t n + n 2 1 2
µ µ = µ µ H0: H1: 1 2 1 2 musíme rozhodnout, zda jsou rozptyly shodné, tj. testovat hypotézu 2 2 2 σ = σ = σ 1 2 testové kriterium F 2 s = 1 2 ~ F n 1 1, n2 1 s2
pokud nezamítneme shodu rozptylů, T eq = 1 2 ( ) ( ) 2 2 n1 1 s1 + n2 1 s2 1 1 + n1 + n2 2 n1 n2 pokud zamítneme, tak jiné testové kritérium: T noneq = X x s n + X x 1 2 2 1 1 s n 2 2 2
Příklad věk hospitalizovaných mužů a žen n prum sm.odch. pohlavi=m 310 60.74 19.03 pohlavi=z 304 59.37 17.9 F = 1.13, p = 0.287 nezamítáme, že rozptyly jsou shodné T = 0.914, p = 0.361 nezamítáme H0, že střední hodnoty věku jsou shodné
Dvouvýběrový test vyšel podle očekávání, věk hospitalizovaných mužů a žen se neliší 100 90 80 70 60 vek 50 40 30 20 10 0 m z
Jak prezentovat výsledky statistických analýz? Užívat zdravý rozum, myslet na čtenáře Gerald van Belle: Statistical Rules of Thumb, John Wiley & Sons, 2002 Kap. 7 Words, Tables, and Graphs
The blood type in the population of the United States is approximately 40%, 11%, 4% and 45% A, B, AB, and O, respectively. The blood type in the population of the United States is approximately 40% A, 11% B, 4% AB and 45% O. The blood type in the population of the United States is approximately, O 45% A 40% B 11% AB 4%.
Table 1: Number of Active Health Professionals in 1980 (from National Center for Health Statistics, 2000) Occupation Chiropractors Dentists Nutritionists/Dieticians Nurses, registered Occupational Therapists Optometrists Pharmacists Physical Therapists Physicians Podiatrists Speech Therapists 1980 25 600 121 240 32 000 1 272 900 25 000 22 330 142 780 50 000 427 122 7 000 50 000
Table 2: Table 1 Rearranged by Number in Category and Rounded to the Nearest 1000. Occupation Nurses, registered Physicians Pharmacists Dentists Physical Therapists Speech Therapists Nutritionists/Dieticians Chiropractors Occupational Therapists Optometrists Podiatrists 1980 in 1000's 1273 427 143 121 50 50 32 26 25 22 7
Užívat rozumný počet významných číslic! efektivní číslice mění hodnoty např. čísla 354691, 357234, 356991 mají jen 4 efektivní číslice, ne 6 v tabulkách max. 2 efektivní číslice, tři a více člověk vnímá obtížně
Neužívat výsečové grafy! čtenář musí propojovat legendu s výsečemi ignorují strukturu dat spotřebuje se moc inkoustu Jediná věc je horší než výsečový graf několik výsečových grafů
Četnost krevních skupin a Rh faktoru populace USA Blood Type Rh+ Rh- Total O 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 Total 84 16 100 O+ A+ B+ AB+ O- A- B- AB-
Neužívat sloupcové skládané (stackbar) grafy jsou hůře čitelné než obyčejné sloupcové většinou se najde efektivnější možnost, jak nahlédnout do struktury dat
Počet aktivit v průběhu dvou týdnů četnosti v % Počet aktivit 70-74 75-79 80-84 85 a více ženy 0 1 1.3 2.1 3.1 1-2 6.8 10.5 11.9 19.2 3-4 26.8 27.5 32.5 38.3 5-7 65.4 60.7 53.5 39.4 muži 0 1.9 1.7 2.9 5.3 1-2 10.5 13.3 15.9 23 3-4 26.3 30.3 36.7 35.9 5-7 61.2 54.7 44.5 35.9
STACKBAR graph Kramarov et al., National Center for Health Statistics, 1999 0 1-2 3-4 5-7 100% 80% 60% 40% 20% 0% 70-74 75-79 80-84 85 a vice ženy 70-74 75-79 80-84 85 a vice muži
Přirozené otázky: Mají více aktivit muži nebo ženy? Jak mění počet aktivit s věkem? Liší se tyto změny u mužů a žen?
Prům ěrný počet aktivit 5.50 5.00 4.50 4.00 3.50 3.00 70 75 80 85 90 Věk ženy muži
Výběr z chyb v korespondenčních úlohách studentů předmětu Analýza dat v LS 2007
500 400 Cetnost 300 200 100 0 1 2 3 4 5 6 7 8 9 10 11 Trida cislo
sloupec 13 400 350 300 250 200 150 100 50 0
T eq x x 578 1 2 = = = 2 2 ( n1 1) s1 + ( n2 1) s 186.0938933 2 1 1 + n1+ n2 2 n1 n2 3.108108438 H0: µ = 6 průměr x = 5,959409417 s = 0,99046792 hodnota testového kritéria: -1,29593994
250 000 200 000 150 000 100 000 50 000 0 Počet narozených Počet narozených 1983 1988 1993 1998 2003 1978 1973 1968 1963
nerozpoznaný Safari 1 400 000 000 1 200 000 000 1 000 000 000 800 000 000 600 000 000 400 000 000 200 000 000 0 Přístupy prostřednictvím majoritních prohlížečů Mozilla Internet Explorer 5 a starší Internet Explorer 6 Internet Explorer 7 Netscape Opera prohlížeč Firefox počet přístupů
Rozložení souboru dle výroku: "Pijete alkohol?" a typu školy 120 100 četnost v % 80 60 40 ano ne 20 0 gymnázium učiliště průmyslovka
1897 1902 1907 1912 1917 1922 1927 1932 1937 1942 1947 1952 1957 1962 1967 1972 1977 1982 1987 1992 450 400 350 300 250 200 150 měření rekonstrukce Úhrn srážek (m m )
Závěrečné poznámky: Ze 6 přednášek a cvičení není možné naučit se statistiku, ale lze pochopit základní myšlenky Data jsou obrazem zkoumaného světa, garbage in, garbage out Aplikaci statistiky ve výzkumu včas konzultujte se statistikem (Třísku si vyndám sám, se slepým střevem jdu na chirurgii)