Pearsonův korelační koeficient

Podobné dokumenty
Korelace. Komentované řešení pomocí MS Excel

Testování statistických hypotéz

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

KORELACE. Komentované řešení pomocí programu Statistica

Lineární regrese. Komentované řešení pomocí MS Excel

Statistická analýza jednorozměrných dat

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Jednofaktorová analýza rozptylu

Testy statistických hypotéz

Regresní a korelační analýza

Regresní a korelační analýza

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

Regresní a korelační analýza

KGG/STG Statistika pro geografy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Aplikovaná statistika v R - cvičení 2

Regresní a korelační analýza

Testy nezávislosti kardinálních veličin

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Popisná statistika. Komentované řešení pomocí MS Excel

Jana Vránová, 3. lékařská fakulta UK

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Testování hypotéz a měření asociace mezi proměnnými

Korelační a regresní analýza

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Stručný úvod do testování statistických hypotéz

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Návrhy dalších možností statistického zpracování aktualizovaných dat

Neparametrické metody

Testování hypotéz o parametrech regresního modelu

Regresní analýza 1. Regresní analýza

4EK211 Základy ekonometrie

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

= = 2368

Cvičení ze statistiky - 9. Filip Děchtěrenko

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testování hypotéz o parametrech regresního modelu

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Kontingenční tabulky, korelační koeficienty

Cvičení ze statistiky - 8. Filip Děchtěrenko

Kontingenční tabulky, korelační koeficienty

Normální rozložení a odvozená rozložení

Charakteristika datového souboru

Mnohorozměrná statistická data

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Úvodem Dříve les než stromy 3 Operace s maticemi

Popisná statistika kvantitativní veličiny

6. Lineární regresní modely

Analýza dat na PC I.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Mnohorozměrná statistická data

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Normální (Gaussovo) rozdělení

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Diagnostika regrese pomocí grafu 7krát jinak

Průzkumová analýza dat

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Normální (Gaussovo) rozdělení

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Metodologie pro Informační studia a knihovnictví 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Souběžná validita testů SAT a OSP

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Tomáš Karel LS 2012/2013

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistické testování hypotéz II

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

LINEÁRNÍ REGRESE. Lineární regresní model

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Neparametrické testy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Zápočtová práce STATISTIKA I

TECHNICKÁ UNIVERZITA V LIBERCI

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

1. Přednáška. Ing. Miroslav Šulai, MBA

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Porovnání dvou výběrů

Transkript:

I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních proměnných. Uvažujme tedy pár takovýchto proměnných, mohlo by být zajímavé zjistit, zda mezi nimi existuje lineární vztah; tedy zjistit, jestli jsou korelované. Typy korelace bychom mohli kategorizovat podle toho, co se stane s první proměnou, když druhá poroste: Kladná korelace první proměnná má tendenci také růstů; Záporná korelace první proměnná má tendenci klesat; Nulová korelace první proměnná nemá tendenci ani růst, ani klesat. Začátkem každé takové analýzy by tedy měla být konstrukce a následné prozkoumání bodového grafu. Následují příklady záporné, nulové a kladné korelace. Motivační příklad. Podívejme se nyní na konkrétní příklad. Následující data obsahují úrovně hemoglobinu (Hb) a celkové objemy buněk (PCV) od 14 dárců krve ženského pohlaví. Zajímalo by nás, zda existuje nějaký vztah mezi proměnnými Hb a PCV v populaci žen. Hb PCV Hb PCV 15.5 0.450 13.1 0.400 13.6 0.420 16.1 0.445 13.5 0.440 16.4 0.470 13.0 0.395 13.4 0.390 13.3 0.395 13.2 0.400 12.4 0.370 14.3 0.420 11.1 0.390 16.1 0.450 Bodový graf naznačuje vztah mezi PVC a Hb, kdy se vyšší hodnoty HB spojují s vyššími hodnotami PCV. Zdá se, že mezi těmito proměnnými existuje pozitivní korelace. Také si všimněme, že vztah mezi těmito proměnnými se zdá být lineární. Handout 1

I.II Korelační koeficient Pearsonův korelační koeficient je statistický ukazatel síly lineárního vztahu mezi párovými daty. Jedná se o výběrový korelační koeficient. Označme ho r, pro jeho hodnoty platí: 1 r 1 Poznámky: Kladné hodnoty r znamenají kladnou lineární korelaci; Záporné hodnoty r znamenají negativní lineární korelaci; Hodnota r nula znamená, že mezi proměnnými neexistuje lineární korelace; Čím je hodnota blíže 1 nebo -1, tím silnější lineární korelace je. Na schématu jsou ukázky vzorku dat a hodnoty jejich příslušných korelačních koeficientů. První tři reprezentují extrémní hodnoty korelací, a to -1, 0 a 1: Handout 2 Statistika 2

Jestliže r = ±1, potom řekneme, že máme dokonalou korelaci, kdy jsou body poskládané v dokonale rovné přímce. Nicméně výběrový soubor, se kterým většinou pracujeme vypadá spíše, jako následující soubory: Poznámky: Korelační koeficient nesouvisí se sklonem proložené přímky kromě znamínka + a - Korelační koeficient je měřítkem lineárního vztahu a tedy hodnota r = 0 neznamená, že mezi proměnnými není žádný vztah. Například následující bodový graf má r = 0, což značí nulovou korelaci, nicméně proměnné mají dokonale kvadratický vztah. Handout 3 Statistika 2

Korelace je míra souvislosti a tak je možné sílu korelace popsat i verbálně. Použijeme Evansovu (1996) příručku, kterou navrhl pro absolutní hodnotu r: 0,00-0,19 velmi slabá 0,20-0,39 slabá 0,40-0,59 střední 0,60-0,79 silná 0,80-1,00 velmi silná Například hodnota korelace r = 0,42 by byla slabá kladná korelace. I.III Předpoklady Výpočet Pearsonova korelačního koeficientu a další testy významnosti vyžadují následující předpoklady o datech: Intervalový nebo poměrový charakter; Lineární vztah; Dvojrozměrné normální rozložení. Pearsonův koeficient korelace je citlivý na zešikmení rozložení dat a na odlehlé hodnoty, při ověřování podmínek, bychom tedy měli dát důraz hlavně na tyto předpoklady. Pokud naše data nesplňují výše uvedené předpoklady, použijeme Spearmanův koeficient pořadové korelace! Příklad Orientační ověření prvních dvou předpokladů jsme provedli výše, nyní se zabývejme ověřením předpokladu dvourozměrné normality. Pro orientační posouzení dvojrozměrné normality datového souboru může sloužit například 95% konfidenční elipsa (pokud alespoň 95% hodnot našeho výběrového souboru leží uvnitř této elipsy budeme předpokládat, že předpoklad dvourozměrné normality není porušen). Podívejme se také na koeficienty šikmosti a zjistěme, zda naznačují zešikmení některé z proměnných. Obě proměnné mají koeficienty šikmosti skutečně kladné. Rychlým posouzením závažnosti problému je ověřit, jestli jsou absolutní hodnoty koeficientů zešikmení menší než dvojnásobek příslušné směrodatné odchylky. V obou případech je toto splněno, což je v souladu s předpokladem Handout 4 Statistika 2

normality dat. Nemáme tudíž žárné obavy ohledně normality dat a můžeme přistoupit ke korelační analýze. Pro data o Hemoglobinu/PCV, software STATISTICA poskytuje následující výstup: Hodnota Pearsonova korelačního koeficientu potvrzuje to, co bylo zřejmé z grafu, tedy že mezi těmito proměnnými se zdá být pozitivní korelace. Nicméně je nutné provést test významnosti, abychom rozhodli, jestli je možné na základě tohoto vzorku usuzovat na existenci lineární korelace v celé populaci. Abychom toho dosáhli, provedeme test s nulovou hypotézou H 0 : ρ = 0, že v populaci žádná korelace není, proti alternativní hypotéze, H 1 : ρ 0, která říká, že v populaci tato korelaci existuje. Na základě datového souboru zamítneme či nezamítneme nulovou hypotézu. Tedy nulová hypotéza říká, že v populaci lineární korelace neexistuje proti alternativní hypotéze, že lineární korelace v populaci existuje. STATISTICA vypočítala p-hodnotu tohoto testu jako 0,000 a tedy můžeme říct, že máme velmi silný důkaz ve prospěch H1, tedy máme silný důvod věřit, že Hb a PCV jsou v ženské populaci lineárně korelované. Významný Pearsonův koeficient s hodnotou 0.877 potvrzuje to, co bylo zřejmé z grafu; zdá se, že mezi těmito proměnnými je velmi silná pozitivní korelace. Tedy vyšší hodnoty Hb se spojují s vyššími hodnotami PCV. Toto by mohlo být formálně zapsáno takto: Pearsonova korelace byla použita k určení vztahu mezi 14 hodnotami Hb a PCV měřených na ženách. Byla zjištěna velmi silná pozitivní korelace mezi Hb a PCV (r=0,88, N = 14, p< 0,001). Handout 5 Statistika 2

I.IV Upozornění Existence silné korelace neznamená kauzální vztah mezi proměnnými. Například nemůžeme předpokládat, že hodnoty Hb určují hodnoty PCV nebo naopak. Také bychom si měli být vědomi, že je možná existence skryté nebo intervenující proměnné. Například můžeme uvažovat vztah mezi schopností číst (Reading Ability) a velikostí nohou (Foot lenght) u dětí. Bodový graf a analýza korelace dat ukazují, že mezi nimi existuje velmi silná korelace (r= 0,88, N=54, p=0,003): Nicméně pokud vezmeme v úvahu věk dítěte, vidíme, že tato očividná korelace by mohla být jen zdánlivá. Pokud nyní znovu prozkoumáme data podle věkových skupin, skutečně zjistíme, že v každé skupině není viditelná žádná korelace mezi schopností číst a velikostí nohou u dětí (tento příklad byl zpracován v softwaru SPSS). Handout 6 Statistika 2

Handout 7 Statistika 2