PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Podobné dokumenty
PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

PSY117. Přednáška VZTAHY MEZI PROMĚNNÝMI KORELAČNÍ KOEFICIENT

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Testování hypotéz a měření asociace mezi proměnnými

KGG/STG Statistika pro geografy

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Mnohorozměrná statistická data

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Mnohorozměrná statistická data

INDUKTIVNÍ STATISTIKA

Pearsonův korelační koeficient

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Kontingenční tabulky, korelační koeficienty

Aplikovaná statistika v R - cvičení 2

Kontingenční tabulky, korelační koeficienty

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Tomáš Karel LS 2012/2013

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

NÁHODNÝ VEKTOR. 4. cvičení

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Regresní a korelační analýza

6. Lineární regresní modely

Analýza dat na PC I.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Třídění statistických dat

Regresní a korelační analýza

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Souběžná validita testů SAT a OSP

Cvičení ze statistiky - 3. Filip Děchtěrenko

Regresní a korelační analýza

Analýza dat z dotazníkových šetření

Regresní a korelační analýza

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1.3 K čemu slouží linearizační transformace? V jakém případě o ní uvažujeme?

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistické testování hypotéz II

Kanonická korelační analýza

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Měření závislosti statistických dat

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

1. Který z následujících korelačních koeficientů ukazuje na nejtěsnější (nejsilnější) vztah? a) 0,55 b) 0,09 c) -0,77 d) 0,1 e) 1,05

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Souhrnné výsledky za školu

Korelace. Komentované řešení pomocí MS Excel

Cíle korelační studie

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Karta předmětu prezenční studium

, Brno Hanuš Vavrčík Základy statistiky ve vědě

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a aplikovaná statistika

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Testy nezávislosti kardinálních veličin

Poznámky k předmětu Aplikovaná statistika, 4. téma

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Korelační a regresní analýza

Úvodem Dříve les než stromy 3 Operace s maticemi

Informační technologie a statistika 1


Poznámky k předmětu Aplikovaná statistika, 4. téma

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Seminář 6 statistické testy

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Téma 22. Ondřej Nývlt

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Statistika (KMI/PSTAT)

Statistika pro geografy

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Popisná statistika. Komentované řešení pomocí MS Excel

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Jana Vránová, 3. lékařská fakulta UK

KORELACE. Komentované řešení pomocí programu Statistica

Transkript:

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu.

Výzkumné otázky Hypotézy o vzájemné souvislosti jevů: Predikuje intelekt akademický úspěch? Mají dobří češtináři i dobré známky z matematiky? Existuje souvislost mezi mírou depresivní a anxiózní symptomatiky? Jsou měsíční příjem a délka pracovní doby dobrými prediktory životní spokojenosti? Jsou různá umělecká nadání specifická, nebo vycházejí ze stejného všeobecného talentu?

Klasifikace proměnných z hlediska funkce v problému Cílem výzkumu je obvykle prověřovat kauzální vztahy na úrovni humanitních věd velmi ambiciózní Statistická analýza nemá potenciál ke zjištění nebo testování kauzality. To je úlohou designu výzkumu a teoretického zpracování. Špatně sebraná data (nevhodný design) nelze zachránit sebelepší analýzou. Klasifikace proměnných: Závislé, nezávislé, intervenující Exogenní, endogenní, moderátory, mediátory Obvykle není možné identifikovat všechny intervenující proměnné Přímý efekt mediace Intervenující proměnná s přímým efektem

Kontingenční tabulka známka z čj známka z matematiky 1 2 3 4 5 celkem 1 82 40 8 1 0 131 2 71 200 73 17 0 361 3 4 75 109 25 0 213 4 1 7 23 24 1 56 5 0 0 2 1 2 5 celkem 158 322 215 68 3 766 Kontingenční tabulka Hodnoty je třeba přehledně uspořádat (stejně jako u tabulky četností) Pro data všech úrovní měření, nejvhodnější pro diskrétní prom. s málo hodnotami Buňky mohou obsahovat absolutní četnosti, rel. četnosti (řádkové, sloupcové, celkové) Poslední sloupec/řádek obsahuje tzv. sloupcové/řádkové marginální (relativní) četnosti Je grafickou podobou je trojrozměrného sloupcový diagramu či histogramu (může obsahovat i intervaly) Relativně vysoké četnosti v jedné z diagonál naznačují lineární provázanost proměnných AJ: contingency table, crosstabulation, cells, row/column marginal frequencies, linear realtionship (vs. curvilinear (non-linear) realtionship), 3D barchart, 3D histogram Fuj: Tab.7.2(s239) je správně kontingenční tabulka, korelační tabulka je něco jiného

Grafická zobrazení dvourozměrného rozdělení Bivariate Histogram of B15 against B16 b_test_akt.sta 149v*3080c Include condition: v133 = 1 3,0 2,5 Scatterplot of ZLYING against ZSCHOOL rudý říjen.sta 41v*481c ZLYING = 0,1397+0,0903*x-0,0094*x^2 2,0 1,5 1,0 ZLYING 0,5 0,0-0,5-1,0-1,5-2,0-3 -2-1 0 1 2 3 ZSCHOOL (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] (14;16] (16;18] (18;20] (20;22] (22;24] (24;26] > 26

Bodový graf - scatterplot Bodový graf scatterplot Nahrazuje kontingenční tabulku, jsou-li obě proměnné spojité; pro proměnné s málo body měření nemá smysl Každá osa reprezentuje jednu proměnnou, každý bod je jedna zkoumaná osoba (jednotka) Poskytuje tím lepší evidenci o vztahu dvou proměnných čím více měření jsme provedli čím přesnější jednotlivá měření byla Parametrem počtu měření může být např. velikost bodu Frequency scatterplot 3 2 1 0-1 -2-3 -3-2 -1 0 1 2 3 4

Různé podoby/druhy vztahu Pouze takto vypadající scattery zobrazují vztah mezi 2 proměnnými, který je lineární a dobře (=smysluplně, výstižně) popsatelný pomocí Pearsonova korelačního koeficientu. U ostatních jde buď o vztahy nelineární, nebo je problém v heterogenitě, outlierech

Lineární souvislost, vztah Lineární vztah je to, co se obvykle míní slovem korelace. Je to monotónní vztah, který se dá popsat slovy čím více X, tím více/méně Y. Projevuje se tak, že scatterplot se dá proložit ideální přímkou y = ax + b Tato funkce/přímka popisuje strmost vztahu. Korelace popisuje těsnost vztahu. AJ: linear association, correlation, monotonous relationship

Těsnost vztahu Čím těsnější (=intenzivnější, silnější) vztah 2 proměnných je, tím jsou body více nahuštěny okolo nějaké přímky Těsnost nesouvisí se sklonem té přímky, ale pouze s tím, jak moc se scatterplot podobá přímce. Těsnost se udává bezrozměrným číslem od 0 do 1, kde 0=žádný vztah(těsnost) a 1= maximální vztah (data na diagonále v obrázku napravo) Znaménko udává, zda jde o vztah čím víc, tím víc (+) nebo o vztah čím víc, tím míň (-) Rozsah je tedy od -1 do 1 Těsnost -> kovariance AJ: strength of association/relationship/correlation, positive relationship, negative(inverse) relationship

Kovariance (=sdílený rozptyl) Míru těsnosti lineárního vztahu dvou proměnných lze vyjádřit číselně Kovariance vypovídá o míře sdíleného rozptylu c xy n n 1 Vzpomeňte si na výpočet rozptylu. Ten byl 1 i1 x i y i Sx 2 / (n 1). Tohle je Sxy / (n 1). Místo x*x je tu x*y, proto je to ko-variance Tato suma je tím vyšší čím máme v sadě dat více dvojic xy, u nichž je hodnota x i y nadprůměrná nebo podprůměrná. Sumu naopak snižují dvojice, kde je jedna hodnota nadprůměrná a druhá podprůměrná. kde x, y jsou deviační skóry, tj. odchylky od průměru Kovariance je stejně jako rozptyl nepraktická výsledek je v jakýchsi jednotkách na druhou AJ: covariance, shared variance

Korelace (=standardizovaný sdílený rozptyl) Chceme-li se zbavit obtížně interpretovatelných jednotek u kovariance, dosáhneme toho podobně jako při výrobě z-skórů podělením deviačního skóru příslušnou směrodatnou odchylkou (=standardizace) r xy 1 n 1 x 1 n 1 i1 ( x m s x )( y s y m y ) Zakroužkovanou část vzorce už ale známe to je transformace na z-skór. Korelace jednodušeji je tedy: r xy zxz n 1 y AJ: correlation

Vlastnosti popsaného koeficientu korelace I. Jde o tzv. Pearsonův součinový, momentový koeficient korelace patří tedy do kategorie momentových ukazatelů (viz předchozí přednáška) a platí pro něj podobné věci: nutná intervalová a vyšší úroveň měření velký vliv odlehlých hodnot na výsledek je vhodný pro popis normálně rozložených proměnných vyjadřuje pouze sílu(těsnost) lineárního vztahu Nabývá hodnot v rozmezí -1 až 1 0 = žádný vztah 1(-1) = dokonalý kladný (záporný) vztah; identita proměnných Korelace nepopisuje funkční vztah dvou proměnných, ale pouze jeho směr a těsnost. AJ: Pearson s product-moment correlation

R Vlastnosti Pearsonova koeficientu korelace II. Je vázán na homogenitu souboru Není aditivní r 2 = R = koeficient determinace (někdy D ) = proporce sdíleného rozptylu V důsledku toho: 0,3-0,1 0,7-0,5 r = 0 neznamená, že mezi rozděleními proměnných není žádná souvislost, znamená pouze, že mezi nimi není lineární vztah. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0-1 -0,5 0 0,5 1 r AJ: sample/population homogeneity, additivity, coefficient of determination

Vlastnosti Pearsonova koeficientu korelace III. Kdy nemá korelace smysl? V1: Kolik hodin denně sledujete televizi? Scatterplot of Q.6E against Q.6D data 281v*2002c Q.6E = -0,006+0,1787*x-0,0014*x^2 V2: Kolik hodin denně sledujete televizní zpravodajství? Proč? 7 6 Korelace proměnných se společnou příčinnou: Swoboda: platy kněžích a ceny vodky v průběhu doby korelují! IQ dětí a velikost a jejich výška prý také kovariance proměnných se společnou příčinnou je základem dalších metod analýzy dat v psychologii: analýzy reliability a faktorové analýzy. Q.6E 5 4 3 2 1 2 3 4 5 6 7 8 Q.6D <= -50 (-50;0] (0;50] (50;100] (100;150] (150;200] (200;250] (250;300] (300;350] (350;400] (400;450] (450;500] (500;550] > 550

Korelační koeficienty pro pořadová data vhodné nejen pro pořadová data, ale i pro intervalová, která mají rozložení výrazně odlišné od normálního zachycují i nelineární monotónní vztahy (viz Hendl, s260) ukazatele toho, nakolik jsou pořadí podle korelovaných dvou proměnných stejná Spearmanův koeficient rhó r, r s založený na velikosti rozdílů v pořadí ekvivalentem Pearsonova koeficientu na pořadových datech lze interpretovat r 2 Kendallův koeficient tau t (s variantami b nebo c ) založený na počtu hodnot (prvků výběrového souboru) mimo pořadí vyjadřuje spíše pravděpodobnost, že se prvky výběrového souboru uspořádají podle obou proměnných do stejného pořadí AJ: Spearman (rank correlation) rho, Kendall tau (-b,-c), rank

Korelační koeficienty další korelačních koeficientů existuje velké množství specifická užití např. f zjednodušení ručních výpočtů např. r pb ještě budeme mluvit o vztazích mezi nominálními proměnnými!! Korelace neznamená kauzalitu, jde spíše o koincidenci!! AJ: phi, point-biserial correlation