Ústav patologické fyziologie LF MU. Pokročilé statistické metody. Filip Zlámal. rozptylu (ANOVA) tabulky.

Podobné dokumenty
Jednofaktorová analýza rozptylu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Přednáška IX. Analýza rozptylu (ANOVA)

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Příklad: Test nezávislosti kategoriálních znaků

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

KGG/STG Statistika pro geografy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Vzorová prezentace do předmětu Statistika

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Cvičení 12: Binární logistická regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ADDS cviceni. Pavlina Kuranova

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvod do analýzy rozptylu

Přednáška X. Testování hypotéz o kvantitativních proměnných

Kontingenční tabulky, korelační koeficienty

Seminář 6 statistické testy

Návod na vypracování semestrálního projektu

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednofaktorová analýza rozptylu

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Jana Vránová, 3. lékařská fakulta UK

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Statistická analýza jednorozměrných dat

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

You created this PDF from an application that is not licensed to print to novapdf printer (

Tomáš Karel LS 2012/2013

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza. Eva Jarošová

Statistické testování hypotéz II

7. Analýza rozptylu.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Normální (Gaussovo) rozdělení

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

INDUKTIVNÍ STATISTIKA

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Jednostranné intervaly spolehlivosti

Analýza dat z dotazníkových šetření

KGG/STG Statistika pro geografy

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

PRAVDĚPODOBNOST A STATISTIKA

Seminář 6 statistické testy

Charakteristika datového souboru

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Kontingenční tabulky, korelační koeficienty

4ST201 STATISTIKA CVIČENÍ Č. 7

15. T e s t o v á n í h y p o t é z

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Průzkumová analýza dat

Design Experimentu a Statistika - AGA46E

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Ing. Michael Rost, Ph.D.

Testy nezávislosti kardinálních veličin

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

A B C D

Fisherův exaktní test

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Normální (Gaussovo) rozdělení

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Vybrané partie z biostatistiky

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Uni- and multi-dimensional parametric tests for comparison of sample results

5. T e s t o v á n í h y p o t é z

Transkript:

Ústav patologické fyziologie LF MU 23. 26. 4. 2013 (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 1 / 41

Obsah 1 2 3 4 5 (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 2 / 41

PRINCIP STATISTICKÉ INDUKCE TESTOVÁNÍ HYPOTÉZ - k ověření předem stanovených hypotéz - H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 - testování bud H 0 zamítneme, nebo H 0 nezamítneme H 0 nezamítneme H 0 zamítneme H 0 platí OK chyba I. druhu (α) H 0 neplatí chyba II. druhu (β) OK (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 3 / 41

Motivace Dvouvýběrový t test POUŽITÍ: porovnání středních hodnot dvou souborů PŘEDPOKLADY: nezávislost, normalita, homoskedasticita (shoda rozptylů) ověření normality: exaktně (Shapiro-Wilk, Kolmogorov-Smirnov), N P grafy ověření homoskedasticity: F-test (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 4 / 41

Motivace Dvouvýběrový t test - příklad Normalita Krabicové grafy t-test zamítáme hypotézu o shodě středních hodnot na hladině významnosti α = 0,05 (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 5 / 41

- rozšíření t testu z angl. ANalysis Of VAriance POUŽITÍ: porovnává střední hodnoty více výběrů (I) H 0 : µ 1 = µ 2 = = µ I H 1 : alespoň dvě střední hodnoty se liší PŘEDPOKLADY: nezávislost, normalita, homoskedasticita ověření normality: exaktně (Shapiro-Wilk, Kolmogorov-Smirnov), N P grafy ověření homoskedasticity: Bartlettův test, Levenův test VÝSLEDKY ANOVA tabulka: Zdroj Součet Počet stupňů Střední součet F p-hodnota variability čtverců volnosti čtverců S skupiny S A I 1 S A /(I 1) A /(I 1) p Se/(n I) reziduální S e n I S e/(n I) celkový S T n 1 V případě platnosti H 0 má testová statistika F F(I 1,n I). (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 6 / 41

Mnohonásobná porovnání Pokud H 0 zamítneme, chceme vědět, mezi kterými soubory je významný rozdíl. VYVÁŽENÉ TŘÍDĚNÍ - rozsahy souborů jsou stejné - Tukeyova metoda NEVYVÁŽENÉ TŘÍDĚNÍ - rozsahy souborů jsou různé - Scheffého metoda, modifikace Tukeyovy - Tukeyova-Kramerova (Tukey HSD) (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 7 / 41

Příklad 15 plodů broskví, 3 stupně zralosti Normalita Homoskedasticita (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 8 / 41

Příklad ANOVA tabulka zamítáme hypotézu o shodě středních hodnot mnohonásobná porovnání: Tukeyova metoda Závěr: Byly zjištěny statisticky významné rozdíly mezi skupinami nezralých a přezrálých broskví a mezi skupinami zralých a přezrálých broskví. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 9 / 41

Význam předpokladů NEZÁVISLOST: Velmi důležitý předpoklad, musí být splněn, jinak budou výsledky nesmyslné. NORMALITA: ANOVA není příliš citlivá na porušení normality, zvláště je li rozsah každého výběru větší než 20. Při větším porušení se doporučuje použít Kruskalův Wallisův test. HOMOSKEDASTICITA: Mírné porušení nevadí, při větším porušení se doporučuje použít Kruskalův Wallisův test. Test shody rozptylů má smysl provádět až po ověření normality. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 10 / 41

Modifikace ANOVy One-way ANOVA - jednocestná ANOVA, jednofaktorová ANOVA, jednoduchého třídění (dosud) Two-way ANOVA - dvoucestná ANOVA, dvoufaktorová ANOVA, dvojného třídění - bez interakcí - s interakcemi Three-way ANOVA -...... ANCOVA - Analysis Of Covariance MANOVA - Multinomial Analysis Of Variance RMANOVA - Repeated Measures Analysis Of Variance Kruskalův-Wallisův test - neparametrická ANOVA - založena na pořadí hodnot v celém souboru - testuje se hypotéza o shodě mediánů - mnohonásobná porovnání - obdoba Scheffého a Tukeyovy (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 11 / 41

Shrnutí je statistický test ověřující simultánní shodu středních hodnot sledované veličiny mezi nezávislými soubory, je li rozdělení této veličiny v rámci každého souboru normální a mají li soubory shodné rozptyly. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 12 / 41

ANOVA (jednocestná) v programu Statistica Po spuštění programu Statistica a načtení dat postupujeme následovně: Statistics ANOVA One-way ANOVA OK Variables (výběr proměnných): Dependent variable list (závislá proměnná), Categorical predictor (skupinová proměnná) OK More results Assumptions (ověření předpokladů) normalita Normal p-p (v části Distribution of vars within groups) (výběr skupin) OK shoda rozptylů Levene s test, případně Cochran C, Hartley, Bartlett Summary All effects/graphs (ANOVA tabulka) (pokud zamítneme H 0 ) Post-hoc Scheffé, případně Tukey HSD, případně další Poznámka: Zkoumáme li vliv více kategoriálních proměnných na hodnotu závisle proměnné, použijeme vícecestnou ANOVu (dvoucestnou, trojcestnou atd.). V programu Statistica ji realizujeme stejně jako je uvedeno výše s jednou obměnou: pro ANOVu bez interakcí: Statistics ANOVA Main effects ANOVA... pro ANOVu s interakcemi: Statistics ANOVA Factorial ANOVA... (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 13 / 41

Dvě náhodné veličiny X, Y nominálního typu (X... r úrovní, Y... s úrovní). n... rozsah výběru KONTINGENČNÍ TABULKA - četnostní tabulka Y\X x [1] x [2]... x [r] součet y [1] n 11 n 12... n 1r n 1. y [2] n 21 n 22... n 2r n 2............. y [s] n s1 n s2... n sr n s. součet n.1 n.2... n.r n Testujeme hypotézu H 0: X a Y jsou nezávislé H 1: X a Y jsou závislé (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 14 / 41

Testování nezávislosti Pearsonův χ 2 test asymptotický test porovnává zjištěné četnosti s teoretickými (za platnosti H 0) v případě platnosti H 0 má statistika ( r s χ 2 nij n i.n.j n = i=1 j=1 n i. n.j n podmínka dobré aproximace: n i.n.j n > 5 ) 2 χ 2 ((r 1)(s 1)) Cramérův koeficient (Cramérovo V) V = χ 2 n(min{r,s} 1) Rozmezí V Závislost 0 0, 1 zanedbatelná 0, 1 0, 3 slabá 0, 3 0, 7 střední 0, 7 1, 0 silná - jedná se o obdobu korelačního koeficientu pro nominální veličiny - nabývá hodnot mezi 0 a 1 - určuje míru asociace mezi X a Y (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 15 / 41

Testování nezávislosti Fisherův exaktní test Pro 2 2 Y\X x [1] x [2] součet y [1] a b a+b y [2] c d c +d součet a+c b +d n Pravděpodobnost, že náhodným výběrem vznikne tato tabulka s fixovanými marginálními četnostmi: ) P = ( a+b )( c+d b c ( n ) a+c p-hodnota testu nezávislosti = součet všech P, které více odporují H 0 při fixovaných marginálních četnostech (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 16 / 41

Příklad 1 tabulka Ověření podmínky dobré aproximace: 131.304/758. = 52,54 > 5 Pearsonův χ 2 test Výsledky: Závěr: Nezamítáme hypotézu o nezávislosti obezity a genotypu. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 17 / 41

Příklad 2 tabulka Ověření podmínky dobré aproximace: 8.7/18. = 3,11 5 Fisherův exaktní test Výsledky: Závěr: Zamítáme hypotézu o nezávislosti pohlaví a diagnózy. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 18 / 41

Shrnutí Testování nezávislosti v kontingenčních tabulkách slouží ke zjištění možné asociace mezi náhodnými veličinami nominálního typu. Míru této asociace lze měřit. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 19 / 41

v programu Statistica Po spuštění programu Statistica a načtení dat postupujeme následovně: Statistics Basic Statistics/Tables Tables and banners OK Specify tables (select variables) (výběr proměnných): List1 (1. proměnná), List2 (2. proměnná) OK OK (kontingenční tabulka) Summary (ověření podmínky dobré aproximace pro použití Pearsonova χ 2 testu) Options zatrhnout Expected frequencies Summary (Pearsonův χ 2 test) Options zatrhnout Pearson & M-L Chi-square, případně ještě Phi(2 2) & Cramér s V & C Advanced Detailed two-way tables (Fisherův exaktní test) Options zatrhnout Fisher exact, Yates, McNemar (2 2) Advanced Detailed two-way tables (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 20 / 41

Vymezení pojmu je soubor statistických metod používaných k popisu a analýze dat, které mají charakter časového intervalu. Původně vyvinuta pro epidemiologické studie - předmětem zájmu byla doba zahájení léčby pacienta a jeho úmrtí. Je používaná např. v sociologii, ekonomii, strojírenství (jako doba je např. čas mezi ztrátou zaměstnání a získání nového, čas od zavedení stroje do jeho poruchy). Časový interval má jasně stanovený začátek (vstupní událost) a konec (sledovaná událost). (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 21 / 41

Cenzorování Při dlouhodobém sledování pacientů bychom získali skutečnou dobu každého z nich. Bohužel, z technický, ekonomických a jiných důvodů je takové sledování obtížné, nebo přímo nemožné. Pozorování probíhá jen po určitou dobu (délka studie). Pro část pacientů je doba neznámá, a to v důsledku: - během doby pozorování se sledovaná událost u pacienta nevyskytla - pacient je ztracen z pozorování (např. v důsledku migrace) - pacient v době pozorování zemřel z jiné příčiny, než je sledovaná událost Proto dále pracujeme jen z částečnou informací - tomuto jevu se říká cenzorování. Ve výše uvedených případech víme pouze to, že doba pacienta je větší než doba, po níž byl pozorován cenzorování zprava (right-censoring). (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 22 / 41

Doba T Doba mezi vstupní a sledovanou událostí se označuje jako doba T. - náhodná veličina nabývající kladných hodnot distribuční funkce F(t) = P(T t) F(t) je pravděpodobnost, že doba je menší nebo rovna t (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 23 / 41

Funkce S(t) Vhodnější a častější k popisu analýzy je funkce S(t) = 1 F(t) = P(T > t) S(t) je pravděpodobnost, že pacient přežije čas t, tj. jeho doba je větší než t (v čase t pro něj sledovaná událost nenastane) (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 24 / 41

Riziková funkce h(t) Další důležitá charakteristika v analýze je riziková funkce. Jedná se o intenzitu výskytu sledované události v čase závislou na délce (míra úmrtnosti pacientů v čase t za předpokladu, že se tito pacienti času t dožili). Mezi S(t) a h(t) existuje jednoznačný vztah. Na rozdíl od S(t) může být riziková funkce: - rostoucí (např. pro lidskou populaci straší 65 let) - klesající (např. novorozenecká úmrtnost, většina onkologických onemocnění) - konstantní (např. úmrtnost v produktivním věku, pokročilá chronická onemocnění) - vaničková - kombinuje klesající, konstantní i rostoucí průběh (typická pro úmrtnost v celé lidské populaci, kdy po narození klesá a ve stáří roste) (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 25 / 41

Metody analýzy 1. Metody parametrické - vyžadují splnění předpokladů o pravděpodobnostním rozdělení doby T 2. Metody neparametrické - nevyžadují zvláštní předpoklady o rozdělení pravděpodobnosti doby T - nejčastěji používané - mezi nejpoužívanější patří Kaplanova-Meierova metoda a metoda odhadu pomocí úmrtnostních tabulek (life-table) 3. Metody semi-parametrické - nevyžadují předpoklady o rozdělení pravděpodobnosti doby T - pracují s parametry a regresními koeficienty - nejznámější Coxův regresní model proporcionálních rizik (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 26 / 41

Metody analýzy Kaplanova-Meierova metoda Neparametrický odhad prostřednictvím dob t i v případě cenzorovaných pozorování. n pacientů, u k z nich dojde během pozorování k výskytu sledované události (k z nich během pozorování zemřelo) Časové okamžiky: t 1 < t 2 < < t k Odhad funkce : S(t j) = k j=1 ( 1 n j d j ) - n j...počet pacientů, kteří jsou ještě naživu v čase t j - d j...počet úmrtí v čase t j Grafem je schodovitá funkce (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 27 / 41

Metody analýzy Life-table odhad Tato metoda je principiálně stejná jako Kaplanova-Meierova metoda. Rozdíl: definovány časové intervaly pevně dané velikosti. Odhad funkce : S(j) = ( ) j i=1 1 d j n j 2 1 c j - n j...počet pacientů, kteří jsou ještě naživu na počátku j tého intervalu - d j...počet úmrtí během intervalu j - c j...počet cenzorování v intervalu j (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 28 / 41

Metody analýzy Porovnání obou metod Předpoklady: Kaplanova-Meierova metoda v riziku všichni pacienti s cenzorovaným časem Life-table odhad v riziku polovina pacientů s cenzorovaným časem Vyskytuje li se ve stejném časovém okamžiku úmrtí i cenzorování, je nepřesné předpokládat, že všechna úmrtí předchází všem cenzorováním (jak předpokládá Kaplanova-Meierova metoda), proto je vhodnější použití life-table. v případě výskytu úmrtí i cenzorování ve stejném čase Kaplanova-Meierova metoda pravděpodobnost oproti life-table metodě mírně nadhodnocuje Kaplanův-Meierův odhad je vhodnější použít pro klinické studie (kde jsou k dispozici přesné údaje o době pacientů). Metody úmrtnostních tabulek je vhodnější použít v populačních analýzách (kde je výskyt úmrtí a cenzorování ve stejném čase častější - velký počet pacientů, méně přesné zaznamenávání dob pacientů). (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 29 / 41

Metody analýzy Log-rank test Běžný problém v klinických studíıch je porovnání dvou a více křivek, např. při zkoumání vlivu nového léčiva na dobu onkologických pacientů. Pro tato srovnání existuje několik statistických testů: - log-rank test - obecný Wilcoxonův test - Tarone-Ware test - Peto-Peto test - Fleming-Harrington test Všimneme si log-rank testu. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 30 / 41

Metody analýzy Log-rank test Jedná se v podstatě o χ 2 test. Log-rank statistika χ 2 = (O i E i ) 2, i = 1,2 Var(O i E i ) O i E i = n j=1 (m ij e ij ) - m ij...počet pozorovaných jevů v čase j v souboru i - e ij...očekávaný ( počet jevů v čase j v souboru i nij - e ij = )(m n 1j +n 1j +m 2j ) 2j Var(O i E i ) = n j=1 n 1j n 2j (m 1j +m 2j )(n 1j +n 2j m 1j m 2j ) (n 1j +n 2j ) 2 (n 1j +n 2j 1) H 0: Neexistuje rozdíl mezi křivkami H 1: Neplatí H 0 V případě platnosti H 0 má testová statistika χ 2 χ 2 (1). (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 31 / 41

Log-rank test Příklad Data a křivky (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 32 / 41

Log-rank test Příklad Data a výsledek log-rank testu Závěr: Zamítáme hypotézu o shodě křivek mezi skupinami A a B. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 33 / 41

v programu Statistica Po spuštění programu Statistica a načtení dat postupujeme následovně: Statistics Advanced Linear/Nonlinear Models Survival Analysis (Kaplanova-Meierova metoda) Kaplan & Meier product limit method OK Variables (survival times & censoring indicator) (výběr proměnných): Survival times (or dates) (proměnná obsahující doby ), Censoring indicator (proměnná obsahující informace o cenzorování) OK doplnit do Code for complete responses hodnotu, kterou kódujeme necenzorovaná data, a do Code for censored responses hodnotu, kterou kódujeme cenzorovaná data Survival times vs. cum. proportion surviving, případně další možnosti (life table metoda) Life tables & Distributions (výběr proměnných stejný jako u Kaplanovy-Meierovy ) + možnost zvolit počet intervalů v části Compute table based on: Number of intervals OK Function plots Plot of survival function, případně další možnosti (log rank test) Comparing two samples OK (výběr proměnných jako u Kaplanovy-Meierovy ) + zvolit Grouping variable (skupinová proměnná) OK (výsledek testu) Two-sample tests Log-rank test (křivky ) Function plots Cum. prop. surviving by group (Kaplan Meier) (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 34 / 41

Cíle a použití Jedna z vícerozměrných statistických metod ( hlavních komponent, faktorová, diskriminační, korespondenční,...). CÍL: roztřídění n objektů, z nichž každý je popsán p znaky, do pokud možno stejnorodých skupin (shluků, clusterů) shlukování POŽADAVEK: aby si objekty uvnitř shluku byly podobné co nejvíce, naopak objekty z různých shluků co nejméně Používá se spíše jako průzkumová metoda, slouží jako vodítko k dalšímu zpracování dat (např. k odhalení odlehlých objektů). (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 35 / 41

Podobnost objektů Posuzujeme podle různých měr vzdálenosti mezi objekty. Vzdálenost je vyjádřena pomocí metriky, např. Eukleidovská vzdálenost d ij = p k=1 (x ik x jk ) 2 manhattanská (taxikářská) vzdálenost d ij = p k=1 x ik x jk A A B B např. Objekt Věk (l) Výška (cm) Váha (kg) 1 24 159 77 2 45 171 79 Eukl. vzdál.: d 12 = (24 45) 2 +(159 171) 2 +(77 79) 2 = 31,89 manh. vzdál.: d 12 = 24 45 + 159 171 + 77 79 = 35 Vzdálenosti mezi objekty se uspořádají do matice vzdáleností. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 36 / 41

Hierarchické shlukování Nejčastěji používaná je aglomerativní hierarchická procedura - postupné slučování objektů od nejbližších ke stále vzdálenějším. Návod: 1. Každý objekt - samostatný shluk. 2. Nalezneme dva shluky, jejichž vzdálenost je minimální. 3. Ty sloučíme do nového, většího shluku a přepočítáme matici vzdáleností. 1. krok 2. krok 3. krok (n-1). krok 4. krok (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 37 / 41

Hierarchické shlukování Vzdálenosti mezi shluky Metoda nejbližšího souseda: vzdálenost mezi shluky je dána jako nejmenší vzdálenost mezi jejich objekty Metoda nejvzdálenějšího souseda: vzdálenost mezi shluky je dána jako největší vzdálenost mezi jejich objekty Metoda průměrné vazby: vzdálenost mezi shluky je průměrem ze všech vzdáleností mezi jejich objekty Odstranění vlivu měřítka veličin: standardizací. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 38 / 41

Dendrogram Výsledky aglomerativního hierarchického shlukování se zpravidla graficky vyjadřují pomocí dendrogramu. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 39 / 41

Další shlukování ní metodou nejbližších těžišt (K-Means) - musí být předem znám počet shluků - postup založen na nejbližším těžišti - do shluku je zařazen objekt, jehož vzdálenost od těžiště je nejmenší - neznáme li těžiště shluků, pak se určují iterativním výpočtem z dat ní metodou optimálních středů (medoidů) - optimální střed shluku (medoid) - takový střední objekt, pro nějž platí, že průměrná vzdálenost k ostatním objektům v tomto shluku je minimální (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 40 / 41

v programu Statistica Po spuštění programu Statistica a načtení dat postupujeme následovně: Statistics Multivariate Exploratory Techniques Cluster Analysis Joining (tree clustering) OK Variables (výběr proměnných) - zvoĺıme, které proměnné chceme zahrnout do analýzy OK Advanced v části Cluster zvoĺıme Cases (rows), v části Amalgamation (linkage) rule zvoĺıme metodu pro určení vzdáleností mezi shluky, v části Distance measure zvoĺıme typ metriky (vzdálenosti) OK Verticle icile plot nebo Horizontal hierarchical tree plot, v případně další možnosti Poznámka: Standardizaci veličin před provedením shlukové analýzy provedeme např. tak, že přímo označíme sloupce, které chceme standardizovat, a zvoĺıme Data Standardize. (Ústav patologické fyziologie LF MU) 23. 26. 4.2013 41 / 41