PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Podobné dokumenty
PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

PSY117. Přednáška VZTAHY MEZI PROMĚNNÝMI KORELAČNÍ KOEFICIENT

Pearsonův korelační koeficient

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

INDUKTIVNÍ STATISTIKA

Mnohorozměrná statistická data

Mnohorozměrná statistická data

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Aplikovaná statistika v R - cvičení 2

KGG/STG Statistika pro geografy

Testování hypotéz a měření asociace mezi proměnnými

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Kontingenční tabulky, korelační koeficienty

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Cvičení ze statistiky - 3. Filip Děchtěrenko

Charakterizace rozdělení

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistická analýza jednorozměrných dat

NÁHODNÝ VEKTOR. 4. cvičení

Kontingenční tabulky, korelační koeficienty

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Analýza dat na PC I.

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

You created this PDF from an application that is not licensed to print to novapdf printer (

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1.3 K čemu slouží linearizační transformace? V jakém případě o ní uvažujeme?

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

MATEMATICKÁ STATISTIKA - XP01MST

Analýza dat z dotazníkových šetření

Třídění statistických dat

Regresní a korelační analýza

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Téma 22. Ondřej Nývlt

Kanonická korelační analýza

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

6. Lineární regresní modely

Regresní a korelační analýza

Měření závislosti statistických dat

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Tomáš Karel LS 2012/2013

Informační technologie a statistika 1

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Regresní a korelační analýza

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

1. Který z následujících korelačních koeficientů ukazuje na nejtěsnější (nejsilnější) vztah? a) 0,55 b) 0,09 c) -0,77 d) 0,1 e) 1,05

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Seminář 6 statistické testy

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Pravděpodobnost a aplikovaná statistika

Regresní a korelační analýza

Seminář 6 statistické testy

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Regresní a korelační analýza

Karta předmětu prezenční studium

Induktivní statistika. z-skóry pravděpodobnost

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Metodologie pro Informační studia a knihovnictví 2

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Poznámky k předmětu Aplikovaná statistika, 4. téma

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Statistika pro geografy

Souběžná validita testů SAT a OSP

Poznámky k předmětu Aplikovaná statistika, 4. téma

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Příprava dat a) Kontrola dat

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Náhodný vektor a jeho charakteristiky

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Popisná statistika. Komentované řešení pomocí MS Excel

1. Přednáška. Ing. Miroslav Šulai, MBA

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III


Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Metodologie pro Informační studia a knihovnictví 2

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Náhodná veličina a rozdělení pravděpodobnosti

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Souhrnné výsledky za školu

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Korelace. Komentované řešení pomocí MS Excel

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Transkript:

PSY117/454 Statistická analýza dat v psychologii Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Analýza vztahů mezi dvěma proměnnými Souvisí nějak? Výška a váha Známky u jednotlivých předmětů Známky a intelekt Úzkost a depresivita Roste úroveň proměnné x s proměnnou y? Je intelekt dobrým prediktorem školního úspěchu? (=Jak dobře můžeme ze znalosti IQ odhadnout známky?) Čím je x vyšší/nižší, tím má y tendenci být vyšší/nižší Na pořadové a vyšší úrovni Terminologická pozn. Úroveň (level) proměnné je zde použita ve významu hodnota. Např. proměnná pohlaví má 2 úrovně mužské a ženské. a zde je termín úroveň použit ve významu úroveň měření AJ: relationship between 2 variables; the higher/lower are the values of X, the higher/lower the values of y tend to be; level of a variable, level of measurement, predictor

Kontingenční tabulka známka z matematiky celkem 1 2 3 4 5 1 82 40 8 1 0 131 2 71 200 73 17 0 361 známka z čj 3 4 75 109 25 0 213 4 1 7 23 24 1 56 5 0 0 2 1 2 5 celkem 158 322 215 68 3 766 Kontingenční tabulka Hodnoty je třeba přehledně uspořádat (stejně jako u tabulky četností) Pro data všech úrovní měření, nejvhodnější pro diskrétní prom. s málo hodnotami Buňky mohou obsahovat absolutní četnosti, rel. četnosti (řádkové, sloupcové, celkové) Poslední sloupec/řádek obsahuje tzv. sloupcové/řádkové marginální (relativní) četnosti Její grafickou podobou je trojrozměrný sloupcový diagram či histogram Lineární vztah se projevuje vysokými četnostmi na jedné z diagonál (zde červená elipsa) AJ: contingency table, crosstabulation, cells, row/column marginal frequencies, linear realtionship (vs. curvilinear (non-linear) realtionship), 3D barchart, 3D histogram Fuj: Tab.7.2(s239) je správně kontingenční tabulka, korelační tabulka je něco jiného

Bodový graf - scatterplot Bodový graf scatterplot Nahrazuje kontingenční tabulku, jsou-li obě proměnné spojité Každá osa reprezentuje jednu proměnnou, každý bod je jedna zkoumaná osoba (jednotka) Poskytuje tím lepší evidenci o vztahu dvou proměnných čím více měření jsme provedli čím přesnější jednotlivá měření byla 3 2 1 0-1 -2-3 -3-2 -1 0 1 2 3 4

Různé podoby/druhy vztahu Pouze takto vypadající scattery zobrazují vztah mezi 2 proměnnými, který je lineární a dobře (=smysluplně, výstižně) popsatelný pomocí Pearsonova korelačního koeficientu. U ostatních jde buď o vztahy nelineární, nebo je problém v heterogenitě, outlierech

Lineární souvislost, vztah Lineární vztah je to, co se obvykle míní slovem korelace. Je to monotónní vztah, který se dá popsat slovy čím více X, tím více/méně Y. Projevuje se tak, že scatterplot se dá proložit ideální přímkou y = ax + b AJ: linear association, correlation, monotonous relationship

Těsnost vztahu Čím těsnější (=intenzivnější, silnější) vztah 2 proměnných je, tím jsou body více nahuštěny okolo nějaké přímky Těsnost nesouvisí se sklonem té přímky, ale pouze s tím, jak moc se scatterplot podobá přímce. Těsnost se udává bezrozměrným číslem od 0 do 1, kde 0=žádný vztah(těsnost) a 1= maximální vztah (data na diagonále v obrázku napravo) Znaménko udává, zda jde o vztah čím víc, tím víc (+) nebo o vztah čím víc, tím míň (-) Rozsah je tedy od -1 do 1 Těsnost -> kovariance AJ: strength of association/relationship/correlation, positive relationship, negative(inverse) relationship

Kovariance (=sdílený rozptyl) Míru těsnosti lineárního vztahu dvou proměnných lze vyjádřit číselně Kovariance vypovídá o míře sdíleného rozptylu c xy = n n 1 Vzpomeňte si na výpočet rozptylu. Ten byl 1 i= 1 x i y i Σx 2 / (n 1). Tohle je Σxy / (n 1). Místo x*x je tu x*y, proto je to ko-variance Tato suma je tím vyšší čím máme v sadě dat více dvojic xy, u nichž je hodnota x i y nadprůměrná nebo podprůměrná. Sumu naopak snižují dvojice, kde je jedna hodnota nadprůměrnáa druhápodprůměrná. kde x, y jsou deviační skóry, tj. odchylky od průměru Kovariance je stejně jako rozptyl nepraktická výsledek je v jakýchsi jednotkách na druhou AJ: covariance, shared variance

Korelace (=standardizovaný sdílený rozptyl) Chceme-li se zbavit obtížně interpretovatelných jednotek u kovariance, dosáhneme toho podobně jako při výrobě z-skórů podělením deviačního skóru příslušnou směrodatnou odchylkou (=standardizace) r xy 1 n 1 x 1 = n 1 i = 1 ( x s x m )( y m s y y ) Zakroužkovanou část vzorce už ale známe to je transformace na z-skór. Korelace jednodušeji je tedy: r xy = n z x z 1 y AJ: correlation

Vlastnosti popsaného koeficientu korelace I. Jde o tzv. Pearsonův součinový, momentový koeficient korelace patří tedy do kategorie momentových ukazatelů (viz předchozí přednáška) a platí pro něj podobné věci: nutná intervalová a vyšší úroveň měření velký vliv odlehlých hodnot na výsledek je vhodný pro popis normálně rozložených proměnných (čím méně jsou data dále od normálního rozložení, tím více podhodnocuje skutečnou těsnost vztahu) Vyjadřuje pouze sílu(těsnost) lineárního vztahu Nabývá hodnot v rozmezí -1 až 1 0 = žádný vztah 1(-1) = dokonalý kladný (záporný) vztah; identita proměnných Korelace nepopisuje funkční vztah dvou proměnných, ale pouze jeho směr a těsnost AJ: Pearson s product-moment correlation

Vlastnosti Pearsonova koeficientu korelace II. Je vázán na homogenitu souboru Není aditivní r 2 = R = koeficient determinace = proporce sdíleného rozptylu r = 0 neznamená, že mezi proměnnými není žádný vztah, znamená, že mezi nimi není lineární vztah (viz obr.) AJ: sample/population homogeneity, additivity, coefficient of determination

Korelační koeficienty pro pořadová data vhodné nejen pro pořadová data, ale i pro intervalová, která mají rozložení výrazně odlišné od normálního zachycují i nelineární monotónní vztahy (viz Hendl, s260) ukazatele toho, nakolik jsou pořadí podle korelovaných dvou proměnných stejná Spearmanův koeficient rhó ρ, r s založený na velikosti rozdílů v pořadí ekvivalentem Pearsonova koeficientu na pořadových datech lze interpretovat r 2 Kendallův koeficient tau τ (s variantami b nebo c ) založený na počtu hodnot mimo pořadí vyjadřuje spíše pravděpodobnost, že se podle obou proměnný uspořádají do stejného pořadí AJ: Spearman (rank correlation) rho, Kendall tau (-b,-c), rank

Korelační koeficienty další korelačních koeficientů existuje velké množství specifická užití např. φ zjednodušení ručních výpočtů např. r pb ještě budeme mluvit o vztazích mezi nominálními proměnnými!! Korelace neznamená kauzalitu, jde spíše o koincidenci!! AJ: phi, point-biserial correlation