Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Podobné dokumenty
Grafy a tabulky ve statistice (aneb Na co ve výuce obvykle není čas)

Základy pravděpodobnosti a statistiky. Popisná statistika

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Příklad: Test nezávislosti kategoriálních znaků

ADDS cvičení 7. Pavlína Kuráňová

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Analýza dat z dotazníkových šetření

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Úvod. Analýza závislostí. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

TESTOVÁNÍ NEPARAMETRICKÝCH HYPOTÉZ. 11. cvičení

PRAVDĚPODOBNOST A STATISTIKA OPAKOVÁNÍ, pro rozpoznávání

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 2: Statistika a pravděpodobnost

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Příloha č. 3. Kombinační třídění

Kontingenční tabulky, korelační koeficienty

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Kontingenční tabulky, korelační koeficienty

( ) Kreslení grafů funkcí metodou dělení definičního oboru I. Předpoklady: 2401, 2208

4ST201 STATISTIKA CVIČENÍ Č. 8

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Přednáška 5. Výběrová šetření, Exploratorní analýza

6. T e s t o v á n í h y p o t é z

Základy zpracování kvantitativních dat ZZD

Měření závislosti statistických dat

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

National Health Information System on-line


Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Regresní a korelační analýza

VŠB Technická univerzita Ostrava

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Výsledky testování školy. Druhá celoplošná generální zkouška ověřování výsledků žáků na úrovni 5. a 9. ročníků základní školy. Školní rok 2012/2013

Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Filmy a jejich diváci

KGG/STG Statistika pro geografy

Lineární Regrese Hašovací Funkce

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

19. Testy dobré shody

Základní informace. Kolín, Leden/Únor

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

( ) Neúplné kvadratické rovnice. Předpoklady:

Nerovnice s absolutní hodnotou

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

2.8.9 Parametrické rovnice a nerovnice s absolutní hodnotou

Výsledky testování školy. Druhá celoplošná generální zkouška ověřování výsledků žáků na úrovni 5. a 9. ročníků základní školy. Školní rok 2012/2013

Biostatistika a matematické metody epidemiologie- stručné studijní texty

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Řešení: a) Označme f hustotu a F distribuční funkci náhodné veličiny X. Obdobně označme g hustotu a G distribuční funkci náhodné veličiny Y.

1. Pravděpodobnost a statistika (MP leden 2010)

Cvičení ze statistiky - 2. Filip Děchtěrenko

Lékaři, zubní lékaři a farmaceuti v roce Physicians, dentists and pharmacists 2013

NEPARAMETRICKÉ TESTY

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Výsledky vstupních testů z matematiky a úspěšnost studia

Rovnice s neznámou pod odmocninou a parametrem

Pravděpodobnost a statistika: řešené příklady 2014 Tomáš Kroupa

( ) ( ) ( ) 2 ( ) Rovnice s neznámou pod odmocninou II. Předpoklady: 2715

Kvantifikace operačního rizika v rámci Přistupu distribuce ztrát

Matematická statistika

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Využití mobilních telefonů studenty PEF Mendelovy univerzity v Brně

Seminář 6 statistické testy

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

2.3. POLARIZACE VLN, POLARIZAČNÍ KOEFICIENTY A POMĚR E/B

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

4EK211 Základy ekonometrie

= musíme dát pozor na: jmenovatel 2a, zda je a = 0 výraz pod odmocninou, zda je > 0, < 0, = 0 (pak je jediný kořen)

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

F p Test. statistika p 13,9 <,001 Muž 249 <,001 Žena 281 <,001. T test t df p Průměrný rozdíl 5, ,48 <,001 4,56

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Přednáška 10. Analýza závislosti

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA SPECIÁLNÍ GEODÉZIE název předmětu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Statistika. Semestrální projekt

Hodnocení způsobilosti procesu. Řízení jakosti

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa


3 Kontingenční tabulky

METODA ROZHOVORU V RÁMCI DOPRAVNĚPSYCHOLOGICKÉHO VYŠETŘENÍ. Bc. Kateřina Böhmová

Aplikovaná statistika 2007 program přednášek pro 2. ročník denního studia

Statistika pro ( )

Poznámky k předmětu Aplikovaná statistika, 9.téma

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Lineární a logistická regrese

Zpráva o průběhu bakalářského přijímacího řízení pro akademický rok 2014/15 na Fakultě stavební ČVUT v Praze

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Bayesovská klasifikace digitálních obrazů

Robust ledna 5. února 2010, Králíky

PROJEKT DO STATISTIKY PRŮZKUM V TECHNICKÉ MENZE

Statistika pro ( )

Analýza vlivu sezónních slev na nákupní. chování teenagerů v Brně

Transkript:

Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Přednáška 6 závislost veličin, závěrečné poznámky Kontingenční tabulka Dvouvýběrový t-test (a analýza rozptylu) Prezentace statistických výsledků

Vztah dvou veličin popisná statistika Obě diskrétní kategoriální četnosti (kontingenční tabulka) Jedna metrická, jedna kategoriální tabulky charakteristik podle hodnot kategoriální veličiny krabicové grafy

Data po předzpracování (výsek) pohlavi odd den_vtydnu vek dny_hosp m CH ST 89 14 m INT CT 81 14 z INT ST 60 11 m INT PO 65 11 z INT UT 88 9 z INT UT 96 9 z G PA 27 8 z CH SO 75 8 m CH NE 80 8 z CH UT 91 8 m INT PO 28 8 z INT PO 28 8 m INT PO 28 8 m INT PO 85 6 m INT PO 85 6 z INT UT 96 6

Závislost dvou diskrétních nemetrických veličin kontingenční tabulka - četnosti pohlavi odd m z Total CH 116 80 196 G 0 58 58 INT 194 166 360 Total 310 304 614

Závislost dvou diskrétních nemetrických veličin kontingenční tabulka četnosti - grafické znázornění 200 180 160 140 120 100 80 60 40 20 0 z CH G INT m

Jedna metrická, jedna kategoriální 100 90 80 70 60 vek 50 40 30 20 10 0 m z

Popisná statistika těmito výsledky končí, více nemůže poskytnout Induktivní statistika poskytne více ukážeme na příkladech

Kontingenční tabulky test nezávislosti dvou kategoriálních veličin x 1 x 2... x j... x C n i. y 1 n 11 n 12 n 1j n 1C n 1. y 2 n 21 n 22 n 2C n 2. Y : : : : : y i n i1 n ij n ic n i. : : : : : y R n R1 n R2 n Rj n RC n R. n.1 n.2 n.j n.c n.. = n X n i C = n j= 1 ij n j R = n i= 1 ij R C R C ij i i= 1 j= 1 i= 1 j= 1 n = n = n = n j

Pro nezávislé veličiny X,Y platí: [ ] Y y ) ( X x ) P( Y y ). P( X x ) P = = = = = ( i j i j zavedeme zkratky [ ] ( ) ( ) p = P Y = y X = x ij i j p = P = i ( Y yi ) p = P = j ( X x j ) p = p. p ij i j

H0: X, Y nezávislé Odhady marginálních pravděpodobností: p i ni = p n Očekávané četnosti při nezávislosti: e n p n n n n n i j i j ij = ij = = n n n Testové kriterium 2 χ = i= 1 j= 1 ( ) ij ij R C n e e ij j = 2 n j n 2 ~ χ( R ) ( C ) 1 1

Kdy zamítnout H0? kritický obor pro testové kriterium: 2 W = χ( R 1)( C 1)(1 α), + n=4 f(x) ) 0.15 n=10 0.000 0 2 4 7 9 11 13 16 18 20 x

Když zamítneme H0: standardizovaná residua ( n e )/ e ij ij ij mají přibližně normované normální rozdělení, tj. pokud je absolutní hodnota standardizovaného residua > 2, je odchylka pozorované četnosti od očekávané významná

Míry těsnosti závislosti X,Y Koeficient Φ Φ= χ 2 n Cramerovo V V = Φ 2 min( RC, ) Pearsonův koeficient kontingence C = 2 χ 2 χ + n Čuprovův koeficient kontingence T = ( R 2 Φ 1)( C 1)

Výsledky pro odd, pohlavi Counts Section pohlavi odd m z Total CH 116 80 196 G 0 58 58 INT 194 166 360 Total 310 304 614 Expected Counts Assuming Independence Se pohlavi odd m z Total CH 99 97 196 G 29.3 28.7 58 INT 181.8 178.2 360 Total 310 304 614

Chi-Square 66.737764 Degrees of Freedom 2 Probability Level 0.000000 Phi 0.329687 Cramer's V 0.329687 Pearson's Cont. Coeff 0.313109 Tschuprow's T 0.277232 Standardized Residual Section pohlavi odd m z Total CH 1.71-1.73 0 G -5.41 5.46 0 INT 0.91-0.92 0 Total 0 0 0

V tabulce je strukturální nula, dopředu jsme věděli, že počet pacientů-mužů na gynekologii je roven 0 vynecháme odd = G Chi-Square Statistics Section Chi-Square 1.442225 Degrees of Freedom 1 Probability Level 0.22978 Phi 0.050931 Cramer's V 0.050931 Pearson's Contingency Coefficient 0.050865 Tschuprow's T 0.050931 Standardized Residual Section pohlavi odd m z CH 0.64-0.72 INT -0.47 0.53

Dvouvýběrový t-test dvě populace, normálně rozdělené 2 N ( µ, σ ) 1 1 2 N ( µ, σ ) 2 2 když jsou rozptyly shodné, pak T = X X ( µ µ ) 1 2 1 2 ( ) ( ) 2 2 n1 1 s1 + n2 1 s2 1 1 + n1 + n2 2 n1 n2 ~ t n + n 2 1 2

µ µ = µ µ H0: H1: 1 2 1 2 musíme rozhodnout, zda jsou rozptyly shodné, tj. testovat hypotézu 2 2 2 σ = σ = σ 1 2 testové kriterium F 2 s = 1 2 ~ F n 1 1, n2 1 s2

pokud nezamítneme shodu rozptylů, T eq = 1 2 ( ) ( ) 2 2 n1 1 s1 + n2 1 s2 1 1 + n1 + n2 2 n1 n2 pokud zamítneme, tak jiné testové kritérium: T noneq = X x s n + X x 1 2 2 1 1 s n 2 2 2

Příklad věk hospitalizovaných mužů a žen n prum sm.odch. pohlavi=m 310 60.74 19.03 pohlavi=z 304 59.37 17.9 F = 1.13, p = 0.287 nezamítáme, že rozptyly jsou shodné T = 0.914, p = 0.361 nezamítáme H0, že střední hodnoty věku jsou shodné

Dvouvýběrový test vyšel podle očekávání, věk hospitalizovaných mužů a žen se neliší 100 90 80 70 60 vek 50 40 30 20 10 0 m z

Jak prezentovat výsledky statistických analýz? Užívat zdravý rozum, myslet na čtenáře Gerald van Belle: Statistical Rules of Thumb, John Wiley & Sons, 2002 Kap. 7 Words, Tables, and Graphs

The blood type in the population of the United States is approximately 40%, 11%, 4% and 45% A, B, AB, and O, respectively. The blood type in the population of the United States is approximately 40% A, 11% B, 4% AB and 45% O. The blood type in the population of the United States is approximately, O 45% A 40% B 11% AB 4%.

Table 1: Number of Active Health Professionals in 1980 (from National Center for Health Statistics, 2000) Occupation Chiropractors Dentists Nutritionists/Dieticians Nurses, registered Occupational Therapists Optometrists Pharmacists Physical Therapists Physicians Podiatrists Speech Therapists 1980 25 600 121 240 32 000 1 272 900 25 000 22 330 142 780 50 000 427 122 7 000 50 000

Table 2: Table 1 Rearranged by Number in Category and Rounded to the Nearest 1000. Occupation Nurses, registered Physicians Pharmacists Dentists Physical Therapists Speech Therapists Nutritionists/Dieticians Chiropractors Occupational Therapists Optometrists Podiatrists 1980 in 1000's 1273 427 143 121 50 50 32 26 25 22 7

Užívat rozumný počet významných číslic! efektivní číslice mění hodnoty např. čísla 354691, 357234, 356991 mají jen 4 efektivní číslice, ne 6 v tabulkách max. 2 efektivní číslice, tři a více člověk vnímá obtížně

Neužívat výsečové grafy! čtenář musí propojovat legendu s výsečemi ignorují strukturu dat spotřebuje se moc inkoustu Jediná věc je horší než výsečový graf několik výsečových grafů

Četnost krevních skupin a Rh faktoru populace USA Blood Type Rh+ Rh- Total O 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 Total 84 16 100 O+ A+ B+ AB+ O- A- B- AB-

Neužívat sloupcové skládané (stackbar) grafy jsou hůře čitelné než obyčejné sloupcové většinou se najde efektivnější možnost, jak nahlédnout do struktury dat

Počet aktivit v průběhu dvou týdnů četnosti v % Počet aktivit 70-74 75-79 80-84 85 a více ženy 0 1 1.3 2.1 3.1 1-2 6.8 10.5 11.9 19.2 3-4 26.8 27.5 32.5 38.3 5-7 65.4 60.7 53.5 39.4 muži 0 1.9 1.7 2.9 5.3 1-2 10.5 13.3 15.9 23 3-4 26.3 30.3 36.7 35.9 5-7 61.2 54.7 44.5 35.9

STACKBAR graph Kramarov et al., National Center for Health Statistics, 1999 0 1-2 3-4 5-7 100% 80% 60% 40% 20% 0% 70-74 75-79 80-84 85 a vice ženy 70-74 75-79 80-84 85 a vice muži

Přirozené otázky: Mají více aktivit muži nebo ženy? Jak mění počet aktivit s věkem? Liší se tyto změny u mužů a žen?

Prům ěrný počet aktivit 5.50 5.00 4.50 4.00 3.50 3.00 70 75 80 85 90 Věk ženy muži

Výběr z chyb v korespondenčních úlohách studentů předmětu Analýza dat v LS 2007

500 400 Cetnost 300 200 100 0 1 2 3 4 5 6 7 8 9 10 11 Trida cislo

sloupec 13 400 350 300 250 200 150 100 50 0

T eq x x 578 1 2 = = = 2 2 ( n1 1) s1 + ( n2 1) s 186.0938933 2 1 1 + n1+ n2 2 n1 n2 3.108108438 H0: µ = 6 průměr x = 5,959409417 s = 0,99046792 hodnota testového kritéria: -1,29593994

250 000 200 000 150 000 100 000 50 000 0 Počet narozených Počet narozených 1983 1988 1993 1998 2003 1978 1973 1968 1963

nerozpoznaný Safari 1 400 000 000 1 200 000 000 1 000 000 000 800 000 000 600 000 000 400 000 000 200 000 000 0 Přístupy prostřednictvím majoritních prohlížečů Mozilla Internet Explorer 5 a starší Internet Explorer 6 Internet Explorer 7 Netscape Opera prohlížeč Firefox počet přístupů

Rozložení souboru dle výroku: "Pijete alkohol?" a typu školy 120 100 četnost v % 80 60 40 ano ne 20 0 gymnázium učiliště průmyslovka

1897 1902 1907 1912 1917 1922 1927 1932 1937 1942 1947 1952 1957 1962 1967 1972 1977 1982 1987 1992 450 400 350 300 250 200 150 měření rekonstrukce Úhrn srážek (m m )

Závěrečné poznámky: Ze 6 přednášek a cvičení není možné naučit se statistiku, ale lze pochopit základní myšlenky Data jsou obrazem zkoumaného světa, garbage in, garbage out Aplikaci statistiky ve výzkumu včas konzultujte se statistikem (Třísku si vyndám sám, se slepým střevem jdu na chirurgii)