Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Podobné dokumenty
Statistická analýza jednorozměrných dat

LINEÁRNÍ REGRESE. Lineární regresní model

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

INDUKTIVNÍ STATISTIKA

You created this PDF from an application that is not licensed to print to novapdf printer (

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Měření závislosti statistických dat

Regresní a korelační analýza

6. Lineární regresní modely

Inovace bakalářského studijního oboru Aplikovaná chemie

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

4EK211 Základy ekonometrie

KGG/STG Statistika pro geografy

4ST201 STATISTIKA CVIČENÍ Č. 10

KGG/STG Statistika pro geografy

Tomáš Karel LS 2012/2013

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Cvičení ze statistiky - 3. Filip Děchtěrenko

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

odpovídá jedna a jen jedna hodnota jiných

Aplikovaná statistika v R - cvičení 3

Statistické testování hypotéz II

Aplikovaná statistika v R - cvičení 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tomáš Karel LS 2012/2013

Korelační a regresní analýza

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Regresní analýza 1. Regresní analýza

Statistika (KMI/PSTAT)

Testování hypotéz a měření asociace mezi proměnnými

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Seminář 6 statistické testy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

=10 =80 - =

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Seminář 6 statistické testy

PRAVDĚPODOBNOST A STATISTIKA

Plánování experimentu

Neparametrické metody

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Korelace. Komentované řešení pomocí MS Excel

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Cíle korelační studie

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Kontingenční tabulky, korelační koeficienty

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Plánování experimentu

Regresní analýza jednoduchá lineární regrese mnohonásobná lineární regrese logistická regrese

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Vztah mezi počtem květů a celkovou biomasou rostliny

PRAVDĚPODOBNOST A STATISTIKA

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Zpráva o výsledcích výzkumu postojů rodičů žáků 5. ročníku k otázkám spravedlivého přístupu ke vzdělávání a překonávání školního neúspěchu

GRAPHS SCATTERPLOT SIMPLE

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Kontingenční tabulky, korelační koeficienty

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Pearsonův korelační koeficient

KORELACE. Komentované řešení pomocí programu Statistica

Optimalizace provozních podmínek. Eva Jarošová

Regresní analýza. Eva Jarošová

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Téma 9: Vícenásobná regrese

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

PRAVDĚPODOBNOST A STATISTIKA

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Úvodem Dříve les než stromy 3 Operace s maticemi

Transkript:

Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako míru asociace vztahu mezi proměnnými použít Pearsonův korelační koeficient korelace ko = s, spolu, vzájemně relace = vztah korelace = vzájemný vztah proměnných

Pearsonův korelační koeficient absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu znaménko (+ nebo -) směr vztahu rozsah -1 až +1 označuje se r

Pearsonův korelační koeficient sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost závisí na velikosti výběru čím vyšší, tím nižší koeficient vychází průkazný

Pearsonův korelační koeficient je mírou pouze pro lineární vztahy před výpočtem je vhodné zobrazit vztah mezi proměnnými také graficky tzv. scatter (dvourozměrný tečkový diagram)

Scatter pozitivní vztah (přímá úměra) čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y r > 0

Scatter negativní vztah (nepřímá úměra) čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y r < 0

Scatter žádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y r = 0

Scatter nelineární vztah r = 0

Příklad jak spolu souvisí pocit štěstí a míra extraverze? 10 osob, 2 proměnné skór z dotazníku štěstí a skór ze škály extraverze

ŠTĚSTÍ Příklad 20 18 16 14 12 10 8 6 4 2 2 4 6 8 10 12 14 16 EXTRAVER

Příklad štěstí 15 8 7 18 4 12 10 10 6 9 extraverze 12 7 5 14 6 3 5 10 4 13

Příklad výpočet r

Příklad SP XY = SS X = SS Y =

Příklad SP XY = 91,9 SS X = 158,9 SS Y = 144,9 r = 91,9/( 158,9*144,9) r = 0,606

Výstup v SPSS Correlations EXTRAVERŠTĚSTÍ EXTRAV Pearson Corre 1,606 Sig. (2-tailed),,064 N 10 10 ŠTĚSTÍ Pearson Corre,606 1 Sig. (2-tailed),064, N 10 10

Interpretace r není shoda v tom, jaká hodnota r je považována za těsný vztah interpretace navržená Guilfordem: <0.20 zanedbatelný vztah 0.20-0.40 nepříliš těsný vztah 0.40-0.70 středně těsný vztah 0.70-0.90 velmi těsný vztah >0.90 extrémně těsný vztah

Interpretace r pro lepší interpretaci je vhodné převést koeficient korelace na koeficient determinace (r 2 ) ukazuje, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné

Interpretace r v našem příkladu r = 0,606 r 2 = 0,367 36,7% rozdílů v míře štěstí můžeme vysvětlit rozdíly v míře extraverze

Interpretace r korelace neznamená příčinný vztah mezi proměnnými!! ten můžeme ověřovat pouze experimentem, kdy jsou všechny ostatní proměnné udržovány konstatní, proměnná X předchází Y v čase atd.

Faktory ovlivňující r omezený rozsah hodnot proměnné použití extrémních skupin nehomogenní soubor extrémní hodnoty (outliers) nelineární vztahy reliabilita použitých nástrojů

Omezený rozsah hodnot omezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r stejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty 1 proměnné byly stejné, zákonitě r=0)

Použití extrémních skupin použití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r

Nehomogenní soubor může zkreslit r jak směrem nahoru, tak dolů

Extrémní hodnoty extrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i směr), zvláště když je počet osob v souboru nízký

ŠTĚSTÍ ŠTĚSTÍ Extrémní hodnoty r= 0,606 r= 0,766 20 20 18 18 16 16 14 12 10 8 6 14 12 10 8 6 4 4 2 2 4 6 8 10 12 14 16 2 2 4 6 8 10 12 14 16 EXTRAVER EXTRAVER

Neparametrický koeficient pro ordinální data je možno spočítat Spearmanův koeficient pořadové korelace ( ) počítá se tak, že hodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadí z pořadí se pak počítá Pearsonův koeficient korelace

Parciální korelace parciální korelace je taková korelace mezi dvěma proměnnými, kdy kontrolujeme vliv třetí proměnné na obě z nich např. chceme zjistit, jaký je vztah mezi prospěchem na SŠ a prospěchem na VŠ; obě proměnné jsou nejspíš ovlivněny IQ

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné

Regresní analýza dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) predikovaná proměnná se označuje Y, prediktory X 1, X 2 X n pouze 1 prediktor jednoduchá regrese více prediktorů vícenásobná regrese

Regresní analýza regresní analýza umožňuje porozumět vztahům mezi proměnnými, predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ

Jednoduchá regresní analýza příklad Jak souvisí vzdělání respondenta se vzděláním otce? tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce?

Jednoduchá regresní analýza 30 20 10 0-10 -10 0 10 20 30 Highest Year School Completed, Father

Jednoduchá regresní analýza snažíme se najít rovnici tzv. regresní přímky regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejménší taková přímka, která nejlépe vystihuje data

Jednoduchá regresní analýza 30 20 10 0-10 -10 0 10 20 30 Highest Year School Completed, Father

Jednoduchá regresní analýza jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální

Jednoduchá regresní analýza obecná rovnice regresní přímky Y = a + bx a je konstanta (predikovaná hodnota Y, když hodnota X je 0) b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X);

Jednoduchá regresní analýza v příkladu vychází rovnice regresní přímky Y = 9,93 + 0,32*X pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let

Výstup v SPSS Mode 1 Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig. 9,926,219 45,260,000,322,019,463 17,050,000 (Constant) Highest Year S Completed, Fa a. Dependent Variable: Highest Year of School Completed

Vícenásobná regresní analýza predikujeme závislou proměnnou z více prediktorů vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv očištěný od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty)

Vícenásobná regresní analýza příklad kromě vzdělání otce (X 1 ) může mít na dosažené vzdělání vliv také počet dětí v rodině (X 2 ) rovnice regresní přímky je Y = a + b 1 X 1 + b 2 X 2

Vícenásobná regresní analýza Y = 10,68 + 0,30*X 1 0,13*X 2 vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce vliv počtu dětí v rodině je záporný tj. čím více dětí, tím nižší vzdělání

Vícenásobná regresní analýza vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině?

Vícenásobná regresní analýza pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní

Výstup v SPSS Mode 1 Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta 10,675,271 t 39,408 Sig.,000,296,019,427 15,225,000 (Constant) Highest Year S Completed, Fa Number of Bro and Sisters -,128,028 -,129-4,595,000 a. Dependent Variable: Highest Year of School Completed

Vícenásobná regresní analýza beta pro vzdělání otce je 0,43 pro počet dětí v rodině -0,13 větší vliv má tedy vzdělání otce než počet dětí v rodině

Vícenásobná regresní analýza kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace korelace všech prediktorů se závislou proměnnou; ozn. R jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu

Vícenásobná regresní analýza koeficient vícenásobné determinace tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R 2

Výstup v SPSS Model Summary b Mode R R Square Adjusted Std. Error o R Squarehe Estimate 1,479 a,229,228 2,512 a. Predictors: (Constant), Number of B Sisters, Highest Year School Comple b. Dependent Variable: Highest Year o Completed

Vícenásobná regresní analýza u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými

Testování hypotéz v regresní analýze jsou testovány 2 typy hypotéz 1) zda se R průkazně liší od 0 testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) 2) zda se regresní koeficienty průkazně liší od 0 testuje se t-testem

Výstup v SPSS ANOVA b Sum of Mode Squares df Mean Squar F Sig. 1 Regressi 992,838 2 996,419157,949,000 a Residual 693,297 1061 6,308 Total 686,134 1063 a. Predictors: (Constant), Number of Brothers and Sister Completed, Father b. Dependent Variable: Highest Year of School Complete

Výstup v SPSS Mode 1 Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta 10,675,271 t 39,408 Sig.,000,296,019,427 15,225,000 (Constant) Highest Year S Completed, Fa Number of Bro and Sisters -,128,028 -,129-4,595,000 a. Dependent Variable: Highest Year of School Completed

Předpoklady regresní analýzy skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření) dostatečná variabilita všech proměnných rozdělení hodnot proměnných je normální u malých výběrů zkontrolovat extrémní hodnoty

Předpoklady regresní analýzy vztahy mezi Y a každou X jsou lineární zkontrolovat scatterem vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór

Předpoklady regresní analýzy dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu

Kontrolní otázky co vyjadřuje absolutní hodnota Pearsonova koeficientu korelace? a co jeho znaménko (+ nebo -)? co je to koeficient determinace? čím může být zkreslen korelační koeficient? účel regresní analýzy obecná rovnice regresní přímky jak se interpretují regresní koeficienty co je to koeficient vícenásobné korelace? předpoklady regresní analýzy