RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Podobné dokumenty
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Korelační a regresní analýza

Statistická analýza jednorozměrných dat

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní a korelační analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Úvodem Dříve les než stromy 3 Operace s maticemi

Regresní a korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

Bodové a intervalové odhady parametrů v regresním modelu

6. Lineární regresní modely

Regresní a korelační analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

PRAVDĚPODOBNOST A STATISTIKA

Aplikovaná statistika v R - cvičení 3

Inovace bakalářského studijního oboru Aplikovaná chemie

Tomáš Karel LS 2012/2013

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

INDUKTIVNÍ STATISTIKA

KORELACE. Komentované řešení pomocí programu Statistica

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza 1. Regresní analýza

Pearsonův korelační koeficient

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

odpovídá jedna a jen jedna hodnota jiných

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Korelace. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

KGG/STG Statistika pro geografy

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Lineární a logistická regrese

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Jana Vránová, 3. lékařská fakulta, UK Praha

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

6. Lineární regresní modely

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení 12: Binární logistická regrese

AVDAT Klasický lineární model, metoda nejmenších

Statistika (KMI/PSTAT)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Aplikovaná statistika v R - cvičení 2

Testování hypotéz a měření asociace mezi proměnnými

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Přednáška IX. Analýza rozptylu (ANOVA)

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

5EN306 Aplikované kvantitativní metody I

Statistická analýza jednorozměrných dat

Regresní analýza. Eva Jarošová

Měření závislosti statistických dat

4EK211 Základy ekonometrie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Lineární regrese. Komentované řešení pomocí MS Excel

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

PRAVDĚPODOBNOST A STATISTIKA

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

6. Lineární regresní modely

Statistická analýza jednorozměrných dat

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Bodové a intervalové odhady parametrů v regresním modelu

AVDAT Geometrie metody nejmenších čtverců

6. Lineární regresní modely

PRAVDĚPODOBNOST A STATISTIKA

Pokročilé neparametrické metody. Klára Kubošová

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kalibrace a limity její přesnosti

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Kontingenční tabulky, korelační koeficienty

VŠB Technická univerzita Ostrava BIOSTATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 10

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Transkript:

Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy

Blok 7 Jak hodnotit vztah spojitých proměnných a základy regresního modelování. 2

Osnova 1. Základy korelační analýzy 2. Základy regresní analýzy 3

1. Základy korelační analýzy

Motivace Zatím jsme se zabývali spojitou proměnnou v jedné skupině, spojitou proměnnou ve více skupinách, diskrétní proměnnou v jedné skupině, diskrétní proměnnou ve více skupinách, vztahem dvou diskrétních proměnných. Teď se chceme zabývat dvěma spojitými proměnnými: 1. Chceme zjistit, jestli mezi nimi existuje vztah např. jestli vyšší hodnoty jedné proměnné znamenají nižší hodnoty jiné proměnné. 2. Chceme kvantifikovat vztah mezi dvěma spojitými proměnnými např. pro použití jedné proměnné na místo druhé proměnné. 3. Chceme predikovat hodnoty jedné proměnné na základě znalosti hodnot jiných proměnných. 5

Jak hodnotit vztah dvou spojitých proměnných? Nejjednodušší formou je bodový graf (x-y graf). Např. vztah objemu hipokampu a amygdaly: 6

Korelace Korelační koeficient kvantifikuje míru vztahu mezi dvěma spojitými proměnnými (X a Y). Standardní metodou je výpočet Pearsonova korelačního koeficientu (r): Charakterizuje linearitu vztahu mezi X a Y jinak řečeno variabilitu kolem lineárního trendu. Nabývá hodnot od -1 do 1. Hodnota r je kladná (kladná korelace), když vyšší hodnoty X souvisí s vyššími hodnotami Y, a naopak je záporná (záporná korelace), když nižší hodnoty X souvisí s vyššími hodnotami Y. Proměnné jsou nekorelované, pokud r = 0. Hodnoty 1 nebo -1 získáme, když body x-y grafu leží na přímce. Lze statistickým testem otestovat, zda jsou dvě spojité proměnné nezávislé hypotézy mají tvar: H 0 : r = 0 (tzn. korelační koeficient je roven nule) a H 1 : r 0. 7

Pearsonův korelační koeficient (r) Y Y r = 1,0 r = -0,9 X X Y Y r = 0,4 r = 0,05 X X 8

Pearsonův korelační koef. problematické situace I. Pearsonův korelační koeficient není vhodné počítat v situaci, kdy: se v datech vyskytuje více skupin proměnné mají nelineární vztah se v datech vyskytují odlehlé hodnoty Více skupin Nelineární vz tah Odlehlá hodnota 1 0 1 2 3 4 5 6 r = 0,84 p < 0,001 0 1 2 3 4 5 6 7 r = 0,58 p < 0,001 2 1 0 1 2 3 4 5 r = 0,36 p = 0,009 2 0 2 4 6 r = 0,84 (p < 0,001) 1 0 1 2 r = 0,58 (p < 0,001) 2 0 2 4 r = 0,36 (p = 0,009) 9

Pearsonův korelační koef. problematické situace II. Problém velikosti vzorku: Y Y r = 0,891 (p < 0,214) r = 0,012 (p < 0,008) X X Test na ověření, zda je Pearsonův korelační koeficient různý od nuly, je parametrický test předpoklad normality srovnávaných spojitých proměnných! 10

Pearsonův korelační koef. problematické situace III. Při srovnání dvou spojitých proměnných je nutné vykreslovat bodový graf, protože histogramy pro jednotlivé proměnné zvlášť nám nemusejí odhalit odlehlé hodnoty! 0 5 10 15 20 Histogram of x -20-10 0 10 20 30 0 5 10 15 Histogram of y -40-20 0 20 40 60 y -40-20 0 20 40 x y -20-10 0 10 20 x 11

Pearsonův korelační koeficient Příklad: Ověřte, zda existuje vztah objemu amygdaly a putamenu v souboru 833 subjektů. Řešení: 12

Úkol 1. Zadání: Ověřte, zda existuje vztah objemu nucleus caudatus a věku u pacientů s AD, pacientů s MCI a u kontrol. Nezapomeňte ověřit normalitu srovnávaných proměnných. Řešení: AD MCI CN r = -0,68 (p < 0,001) r = -0,67 (p < 0,001) r = -0,43 (p < 0,001) 13

Srovnání dvou korelačních koeficientů Příklad: Srovnejte korelační koeficienty objemu nucleus caudatus a věku u pacientů s AD a kontrolních subjektů. Postup: Z předchozího úkolu víme, že: r 1 = -0,68 N 1 = 197 r 2 = -0,43 N 2 = 230 14

Srovnání korelačního koeficientu s referenční hodnotou Příklad: Srovnejte korelační koeficient objemu nucleus caudatus a věku u pacientů s MCI s hodnotou -0,62, jež byla zjištěna při populačním průzkumu. Postup: Z předchozího úkolu víme, že: r 1 = -0,67 N 1 = 406 Populační průzkum: r 2 = -0,62 N 2 = 32767 (co největší N) 15

Poznámka Korelace dvou náhodných veličin se často interpretuje pomocí druhé mocniny Pearsonova korelačního koeficientu: r 2. Hodnota r 2 vyjadřuje, kolik % své variability sdílí jedna veličina s druhou, jinak řečeno, kolik % variability jedné veličiny může být predikováno pomocí té druhé. S hodnotou r 2 se setkáte v lineárních modelech. 16

Spearmanův korelační koeficient (r s ) Pearsonův korelační koeficient je náchylný k odlehlým hodnotám a obecně odchylkám od normality. Spearmanův korelační koeficient stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. Hodnoty Spearmanova korelačního koeficientu r s se pohybují stejně jako u Pearsonova korelačního koeficientu r od -1 do 1. 17

Srovnání Pearsonova a Spearmanova korelačního koeficientu Pearsonův korelační koeficient: r = 0,65 (p = 0,029) Spearmanův korelační koeficient: r S = 0,95 (p < 0,001) Spearmanův korelační koeficient není náchylný k odlehlým hodnotám. 18

Spearmanův korelační koeficient Příklad: Zjistěte, zda existuje vztah objemu hipokampu a MMSE skóre. Řešení: 19

Úkol 2. Zadání: Zjistěte, zda existuje vztah objemu všech dalších pěti mozkových sktruktur s MMSE skóre (nezapomeňte vykreslit bodové grafy). Řešení: 20

2. Základy regresní analýzy 21

Motivace Cílem regresní analýzy je popsat závislost hodnot jedné proměnné na hodnotách druhé proměnné. Např. závislost objemu hipokampu na věku. Dva problémy: Vybrat správnou funkci k popisu dané závislosti. Stanovit konkrétní parametry daného typu funkce. 22

Příklady závislostí Lineární Nelineární Y Y X X Y X 23

Lineární regrese Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: y = X β + ε y = β 0 + β 1 x + ε y y závisle proměnná (vysvětlovaná proměnná) x nezávisle proměnná (vysvětlující proměnná, regresor) x ε náhodná složka modelu přímky (rezidua přímky) β 0 intercept β 1 regresní koeficient sklon regresní přímky 24

Lineární regrese Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: y = X β + ε y = β 0 + β 1 x + ε y β 0 x y závisle proměnná (vysvětlovaná proměnná) x nezávisle proměnná (vysvětlující proměnná, regresor) ε náhodná složka modelu přímky (rezidua přímky) β 0 intercept β 1 regresní koeficient sklon regresní přímky 25

Lineární regrese Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: y = X β + ε y = β 0 + β 1 x + ε y y závisle proměnná (vysvětlovaná proměnná) x nezávisle proměnná (vysvětlující proměnná, regresor) x ε náhodná složka modelu přímky (rezidua přímky) β 0 intercept β 1 regresní koeficient sklon regresní přímky 26

Lineární regrese Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: y = X β + ε y = β 0 + β 1 x + ε y Odhad koeficientů β metodou nejmenších čtverců: β = X X 1 X y x y závisle proměnná (vysvětlovaná proměnná) x nezávisle proměnná (vysvětlující proměnná, regresor) ε náhodná složka modelu přímky (rezidua přímky) β 0 intercept β 1 regresní koeficient sklon regresní přímky 27

Lineární regrese - příklady Y β 1 > 0 Y y y β 1 = 0 X X y Y β 1 < 0 X 28

Lineární regrese Převzato z přednášek RNDr. Marie Budíkové, Dr. Testování významnosti modelu jako celku celkový F-test: zdroj variability součet čtverců stupně volnosti podíl statistika F model S R p S R /p S reziduální S E n-p-1 S E /(n-p-1) - celkový S T n-1 - - n... počet subjektů; p... počet proměnných ( n - p -1) E S R p 29

Regresní analýza v grafech Grafy residuí modelů (příklady) e e e! e 0 0 00! y (i; x) y (i; x) y (i; x) Obecné tvary residuí modelů (schéma) e a e b e c e d!!! i, x j, y i, x j, y i, x j, y 30

Lineární regrese příklad I Příklad: Proveďte regresní analýzu, v níž budete modelovat závislost objemu nucleus caudatus na věku. Q-Q graf reziduí Histogram reziduí Bodový graf reziduí vs. predikované hodnoty 31

Lineární regrese příklad II Příklad: Chceme zjistit, zda se liší objem nucleus caudatus podle typu onemocnění (pacienti s AD, pacienti s MCI, kontroly). Srovnávané skupiny subjektů však obsahují jiný poměr mužů a žen a liší se i věkovým složením. Odstraňte vliv věku a pohlaví, aby výsledek srovnání objemu nucleus caudatus podle typu onemocnění nebyl ovlivněn tím, že skupiny nejsou srovnatelné. 32

Vícenásobná lineární regrese y = Xβ + ε y X β ε 25 36 58... pacienti I 1 1 I 2 1 I 3 1 I 4 1 I n 1 x 1 x 2 x p = * + parametry β 0 β 1 β 2 β 3 β p ε 0 ε 1 ε 2 ε 3 ε n X matice plánu (design matice) 33

Kvadratická závislost objemu mozkové struktury na věku y = β 0 + β 1 x + β 2 x 2 + ε y X β ε 1.5 2.6-0.8... pacienti I 1 1 I 2 1 I 3 1 I 4 1 I n 1 věk věk*věk β 0 = β * 1 + β 2 parametry ε 1 ε 2 ε 3 ε 4 ε n Převzato z: Walhovd et al. 2011, Neurobiol. of aging 34

Kategoriální data jako prediktory v regresi Kategoriální a ordinální data mohou do analýzy vstupovat jako binární proměnné Kategoriální data (nelze seřadit) -> dummies Ordinální data (lze seřadit) Dummies Definice referenční kategorie (obvykle kategorie s nejnižším rizikem pro hodnocený endpoint Příklad: Stádium karcinomu Původní Dummies Vzhledem k referenci Stádium Stádium I Stádium II Stádium III Stádium IV Stád. II ref Stád. III ref Stád. IV ref I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 1 0 1 III 0 0 1 0 1 IV 0 0 0 1 1 IV 0 0 0 1 1 35

Logistická regrese Standardní metoda pro analýzu binárních charakteristik (pacient/kontrolní subjekt, zemřelý/žijící, s nežádoucími účinky/bez n. ú. apod.) bez vlivu času Modeluje závislost výskytu události (nežádoucího účinku, úmrtí, onemocnění) na binárních, kategoriálních nebo spojitých proměnných Výsledkem rovnice je pravděpodobnost, že u daného pacienta nastane hodnocená událost Alternativou jsou např. rozhodovací stromy, neuronové sítě a další klasifikační metody y=exp(-28.41096581446+(.29929760633475)*x)/(1+exp(-28.41096581446+ (.29929760633 1.0 0.8 0.6 0.4 Model logistické regrese Příklad logistické regrese: predikce binární charakteristiky (osa y) za pomoci spojité proměnné (osa x) 0.2 0.0 40 60 80 100 120 140 160 36

Poděkování Příprava výukových materiálů předmětu DSAN01 Analýza dat pro Neurovědy byla finančně podporována prostředky projektu FRVŠ č. 942/2013 Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy 37