Regresní a korelační analýza

Rozměr: px

Začít zobrazení ze stránky:

Download "Regresní a korelační analýza"

Věra Bláhová
před 8 lety
Počet zobrazení:

1 Regresní a korelační analýza

2 Závslost příčnná (kauzální). Závslostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně odpovídá výskyt druhé jevu (a často naopak). Z pravděpodobnostního hledska jde o vztah, který se projeví s jstotou. Průběh závslost (v určtém ntervalu) lze přesně charakterzovat určtou matematckou funkcí. Volná závslost je závslost, př níž jeden jev podmňuje jev jný jen s určtou pravděpodobností a v různé ntenztě. Určté hodnotě jedné velčny odpovídá celá řada různých hodnot druhé velčny. U této závslost lze charakterzovat teoretcký průběh závslost a její těsnost. Regresní analýza se zabývá jednostranným závslostm. Jedná se o stuac, kdy prot sobě stojí vysvětlující (nezávsle) proměnná v úloze příčn a vysvětlovaná (závsle) proměnná v úloze následků. Korelační analýza se zabývá vzájemným (většnou lneárním) závslostm, kdy se klade důraz především na ntenztu (sílu) vzájemného vztahu než na zkoumání velčn ve směru příčna následek.

Volná závslost je závslost, př níž jeden jev podmňuje jev jný jen s určtou pravděpodobností a v různé ntenztě. Určté hodnotě jedné velčny odpovídá celá řada různých hodnot druhé velčny.

3 Dvourozměrné rozdělení četnost (x,y) = y x

4 Kontngenční (korelační) tabulka Řádek korelační tabulky obsahuje rozdělení četností znaku Y za podmínky, že znak X nabyl určté konkrétní hodnoty (příp. hodnot určtého ntervalu). - podmíněné rozdělení četností znaku Y. oučtový řádek nepodmíněné rozdělení četností znaku Y. loupec korelační tabulky obsahuje rozdělení četností znaku X za podmínky, že znak Y nabyl určté konkrétní hodnoty (hodnot z určtého ntervalu), - podmíněné rozdělení četností znaku X. oučtový sloupec nepodmíněné rozdělení četností znaku X. Četnost v součtovém řádku a součtovém sloupc nazýváme okrajovým (margnálním) četnostm.

loupec korelační tabulky obsahuje rozdělení četností znaku X za podmínky, že znak Y nabyl určté konkrétní hodnoty (hodnot z určtého ntervalu), -

5 Příklad 1 Př sledování tělesné výšky chlapců byl vysloven předpoklad, že výška dítěte je do značné míry ovlvněna výškou rodčů. Následné šetření bylo provedeno celkem u 45 chlapců a jejch otců. Z výsledků šetření byla sestavena korelační tabulka pro znaky výška otce v cm (X) a výška syna v cm (Y) : Y , , , ,9 X 190 a více n , , , , , a více 1 1 n.j

Z výsledků šetření byla sestavena korelační tabulka pro znaky výška otce v cm (X) a výška syna v cm (Y) : Y 170 174,9

Výška syna (cm) Příklad 1 05 00 195 190 185 180 175 170 165 160 Bodový korelační graf pro

6 Výška syna (cm) Příklad Bodový korelační graf pro znázornění závslost mez výškou otce a výškou syna Výška otce (cm)

Postup př stanovení nejvhodnější funkce logcké posouzení daného vztahu které proměnné a funkce přcházejí v úvahu, využtí zkušeností z podobných analýz apod.

8 Postup př stanovení nejvhodnější funkce logcké posouzení daného vztahu které proměnné a funkce přcházejí v úvahu, využtí zkušeností z podobných analýz apod. vytvoření bodového korelačního grafu (scatter plot) jako nejvhodnější zvolíme tu funkc, která má nejvyšší hodnotu koefcenty determnace, příp. lze využít dalších matematckostatstckých krtérí (F test).

vytvoření bodového korelačního grafu (scatter plot) jako nejvhodnější zvolíme tu funkc,

9 Výška syna (cm) Lneární regrese Metoda nejmenších čtverců Parametry funkce hledáme tak, aby součet čtverců chyb e byl mnmální. Pro danou regresní funkc tento součet nazýváme rezduální součet čtverců Bodový korelační ngraf pro n znázornění závslost mez výškou otce a výškou rez e ( y y ) mn. syna 1 1 y a x, y x, y e bx

Pro danou regresní funkc tento součet nazýváme rezduální součet čtverců.

Lneární regrese y=b 1 x+b 0 Z podmínky mnmálnost čtverců jsou vyvozeny normální rovnce, ze kterých se jejch řešením vypočtou neznámé parametry b 1

10 Lneární regrese y=b 1 x+b 0 Z podmínky mnmálnost čtverců jsou vyvozeny normální rovnce, ze kterých se jejch řešením vypočtou neznámé parametry b 1 a b 0. b 1 cov( xy, ) var( x) Výběrový lneární korelační koefcent xy xx b0 y b1 x n 1 cov( x, y) x x y y n 1 1 Root Mean quare Error: RME n 1 Y Y n

11 Rezduální a regresní součet čtverců Rezduální součet čtverců (ME* n) Regresní součet čtverců odchylek predkcí od průměru rez n 1 e reg n ( y 1 n ( y 1 y) y) Celkový součet = součet čtverců odchylek dat od průměru yy n ( y 1 y) Regresní dentta Koefcent determnace R yy reg yy reg rez 1 rez yy Mean quared Error = rez /n Root Mean quared Error RME rez n

= součet čtverců odchylek dat od průměru yy n ( y 1 y) Regresní dentta Koefcent

12 Výška syna (cm) 00 Korelační pole pro závslost výšky syna na výšce otce y = 0,573x + 80, Výška otce (cm)

185 180 175 y = 0,573x + 80,178 170 165 160

13 y Interval spolehlvost pro predkc Pás spolehlvost Lneární regrese y=x y =,007x +,3778 R = 0, x

15 Lneární regrese v Matlabu 10 y=b(1)*x+b() n=100; x=randn(n,1); y=*x+randn(n,1)/+3; % data scatter(x,y,50,'g','flled') [R,P]=corr(x,y); % ln. korelace, p-value, [b,bnt,r,rnt,stats]=regress(y,[x,ones(n,1)]); % stats: R^, F statstcs, p-value, reflne(b) fprntf('r^ %1.3g \n',stats(1)) fprntf('p-hodnota = %1.3g \n',stats(3)) %

korelace, p-value, 1 0 0 0.5 1 1.5.5 3 3.

16 Resduals Lneární regrese v Matlabu rcoplot(r,rnt) Resdual Case Order Plot Case Number

17 Lneární regrese v Matlabu polytool(x,y,1)

18 Robustní lneární regrese v Matlabu robustdemo(x,y); [b_r,stats_r]=robustft(x,y) Use left mouse button to select and drag ponts Use rght mouse button to query pont propertes rez n 1 e ( y 1 Mean quared Error = rez /n Root Mean quared Error n y) yleast 3 squares Robust x RME rez n Least squares: Robust: Y = *X Y = *X RM error = RM error =

Error = rez /n Root Mean quared Error n y) yleast 3 squares Robust 1 0-1 - -.5

19 Nelneární regrese

20 Nelneární regrese Funkc hledám v předepsaném tvaru (exponencální, polynomální, ) parametry nalezneme metodou nejmenších čtverců Koefcent determnace R popsná míra vhodnost použtí regresní rovnce pro predkování. Hodnoty blízké nule naznačují, že zvolená funkce není vhodná. Naopak, hodnoty blízké 1 naznačují, že rovnce je velm vhodná pro extrapolac. Malá hodnota ale nemusí znamenat nízký stupeň závslost mez proměnným, ale může sgnalzovat špatně zvolenou regresní funkc R N 1 N 1 y y y y R reg yy 1 rez yy Mean quared Error = rez /n Root Mean quared Error RME rez n rez n 1 e n ( y 1 y)

Naopak, hodnoty blízké 1 naznačují, že rovnce je velm vhodná pro extrapolac.

21 Korelace náhodných proměnných 6 (x,y) = (x,y) = (x,y) = y 0 y x x N = 10000

22 Korelace náhodných proměnných (x,y) (x,y) = -0.7 = - (x,y) (x,y) = = y 0 y x x N = 10000

23 Korelace náhodných proměnných

24 Nelneární regrese v Excelu Graf > přdat spojnc trendu koefcent spolehlvost R je koefcent determnace

25 Nelneární regrese v Excelu Graf > přdat spojnc trendu koefcent spolehlvost R je koefcent determnace R reg yy

26 y Nelneární regrese v Matlabu 10 y=b(1)*x +b()*x+b(3) x=randn(100,1); y=x.^ randn(100,1)/; scatter(x,y,50,'g','flled') b=polyft(x,y,); refcurve(b) x

27 Nelneární regrese v Matlabu polytool(x,y,)

28 y Nelneární regrese v Matlabu func=@(a,x)(a(1)*x.^+a()*x+a(3)); 9 a0=[1;0;3]; ahat=nlnft(x,y,func,a0); %graf xrange = mn(x):.0:max(x); 7 hold on scatter(x,y) 6 plot(xrange,func(ahat,xrange),'m') hold off a()*x+a(3)); x

29 Nelneární regrese v Matlabu nlntool(x,y,func,a0)

30 Testy korelační analýzy Kontngenční tabulky umožňují testování různých statstckých hypotéz: hypotéza o nezávslost znaků - oba znaky se vzájemně neovlvňují (výška rodčů nemá vlv na výšku dětí) hypotéza o shodnost struktury (homogentě) - očekávané četnost jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku (rozložení výšky je stejné u otců u synů) Klascký test nezávslost nebo homogenty je založen na testu dobré shody, tedy porovnání očekávaných četností v jednotlvých políčcích tabulky za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávsí, a skutečných četností

31 Chí-kvadrát test v Excelu H 0 náhodné výběry pocházejí ze stejného rozdělené CHITET(aktuální;očekávané) aktuální četnost získáné použtím funkce četnost(data, hodnoty). očekávané jak by četnost vypadaly pro teoretcké rozdělení sestejným počtem pozorování a stejným hodnotam. funkce CHITET vrací p-hodnotu. Pro p<a zamítáme hypotézu, že jsou rozdělení stejná Chí-kvadrát test v Matlabu (procedury I.Nagy) chsquare_test.m chsquare_test_h.m H 0 :obě rozdělení jsou shodná chsquare_test_.m H 0 :rozdělení jsou nezávslá

32 Testování lneární regrese T test korelačního koefcentu (Pearsonův test) H 0 : data nejsou vhodná k lneární regres t_test_reg.m F test poměru vysvětleného a nevysvětleného rozptylu H 0 : data nejsou vhodná k lneární regres f_test_reg.m y kx q =LINREGREE(pole_y;pole_x;PRAVDA;PRAVDA) =INTERCEPT(pole_y;pole_x) =LOPE(pole_y;pole_x) absolutní člen q směrnce k

33 y Kvadratcká regrese Koefcent determnace 10 9 y = 1,9733x - 0,0103x + 0,5794 R = 0, x rez 3,617 reg 349,6751 `=VAR(f(x))*n průměr y,89,89 xx 56,75074 `=VAR(x)*n Celkový součet čtverců yy 353, ,9 =rez+reg `=VAR(y)*n Rezduální rozptyl e 0, =rez/(n-) Koefcent determnace R 0, ,04605 =reg/(rez+reg) `=R^ Pearsonův korel. Koefcent R -0, ,146 =PEARON(data_x;data_y)

34 F test poměru vysvětleného a nevysvětleného rozptylu H0: Data nejsou vhodná pro regres F ( n ) reg rez F(1, n ) pravostranný test p hodnota P F F 0 LINREGREE y=kx+q směrnce k, q, , st.chyba koefcentů 0, , Koef. Determnace R,st. Chyba odhadu y 0, ,45447 F statstka, df 40, regresn a rezdualn součet čtverců reg, rez 116, ,706

35 Korelační analýza ordnálních velčn Je důležté odlšt případy, kdy je ordnálního charakteru pouze jedna proměnná a kdy obě. V případech, kdy jsou obě sledované proměnné ordnálního charakteru, můžeme použít testování, založené na pořadí. Wlcoxonův test Mann-Whtney test Kendallův korelační koefcent τk - tau k Goodman-Kruskalův koefcent γ je varantou kendallova τk Pokud je ordnální jen jedna, pak: Kruskal-Wallsův test

Podobné dokumenty

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší