Regresní a korelační analýza

Regresí a korelačí aalýza Závslost příčá (kauzálí). Závslostí pevou se ozačuje případ, kdy výskytu jedoho jevu utě odpovídá výskyt druhé jevu (a často aopak). Z pravděpodobostího hledska jde o vztah, který se projeví s jstotou. Průběh závslost (v určtém tervalu) lze přesě charakterzovat určtou matematckou fukcí. Volá závslost je závslost, př íž jede jev podmňuje jev jý je s určtou pravděpodobostí a v růzé teztě. Určté hodotě jedé velčy odpovídá celá řada růzých hodot druhé velčy. U této závslost lze charakterzovat teoretcký průběh závslost a její těsost. Regresí aalýza se zabývá jedostraým závslostm. Jedá se o stuac, kdy prot sobě stojí vysvětlující (ezávsle) proměá v úloze příč a vysvětlovaá (závsle) proměá v úloze ásledků. Korelačí aalýza se zabývá vzájemým (většou leárím) závslostm, kdy se klade důraz především a teztu (sílu) vzájemého vztahu ež a zkoumáí velč ve směru příča ásledek. 1

Kotgečí (korelačí) tabulka Řádek korelačí tabulky obsahuje rozděleí četostí zaku Y za podmíky, že zak X abyl určté kokrétí hodoty (příp. hodot určtého tervalu). - podmíěé rozděleí četostí zaku Y. oučtový řádek epodmíěé rozděleí četostí zaku Y. loupec korelačí tabulky obsahuje rozděleí četostí zaku X za podmíky, že zak Y abyl určté kokrétí hodoty (hodot z určtého tervalu), - podmíěé rozděleí četostí zaku X. oučtový sloupec epodmíěé rozděleí četostí zaku X. Četost v součtovém řádku a součtovém sloupc azýváme okrajovým (margálím) četostm. Příklad 1 Př sledováí tělesé výšky chlapců byl vyslove předpoklad, že výška dítěte je do začé míry ovlvěa výškou rodčů. Následé šetřeí bylo provedeo celkem u 5 chlapců a jejch otců. Z výsledků šetřeí byla sestavea korelačí tabulka pro zaky výška otce v cm (X) a výška sya v cm (Y) : Y 17 17,9 175 179,9 1 1,9 15 19,9 X 19 a více. 1 1,9 1 3 19 173,9 3 1 17 17,9 3 1 1 15 179 13,9 3 9 1 1,9 3 5 19 a více 1 1.j 11 1 5

Výška sya (cm) Příklad 1 5 195 19 15 1 175 17 15 1 Bodový korelačí graf pro zázorěí závslost mez výškou otce a výškou sya 1 15 17 175 1 15 19 195 Výška otce (cm) 3

Výška sya (cm) Postup př staoveí ejvhodější fukce logcké posouzeí daého vztahu které proměé a fukce přcházejí v úvahu, využtí zkušeostí z podobých aalýz apod. vytvořeí bodového korelačího grafu (scatter plot) jako ejvhodější zvolíme tu fukc, která má ejvyšší hodotu koefcety determace, příp. lze využít dalších matematckostatstckých krtérí (F test). Leárí regrese Metoda ejmeších čtverců Parametry fukce hledáme tak, aby součet čtverců chyb e byl mmálí. Pro daou regresí fukc teto součet azýváme rezduálí součet čtverců. 5 195 19 15 1 175 17 15 1 Bodový korelačí graf pro zázorěí závslost mez výškou otce a výškou sya rez 1 e x, y x, y 1 e ( y Hledáme koefcety b=(b, b 1 ) y) m. 1 15 17 175 1 15 19 195 Výška otce (cm) y b b x 1

Leárí regrese Metoda ejmeších čtverců Mějme dáo bodů [x, y ]. V deálím případě všechy leží a přímce. y b b x 1 1 1 y b b x 1 y b b x 1 y1 1 x1 y 1 x b b1 y 1 b x y A y A b y b b x A A b 1 Hledáme koefcety b=(b, b 1 ) Leárí aproxmačí problém y A b A y 1 b A A A y b A y Moore-Peroseova pseudoverzí matce 1 A A A A Mějme dáo bodů [x, y ]. Leárí regrese Metoda ejmeších čtverců Hledáme koefcety b=(b, b 1 ) y A b b A y A A A 1 A x= rad(5,1); %Norm dstrbuto y=-*x+rad(,1)/; % Nose lear depedece scatter(x,y,'flled','g') x(:,)=1; % colum wth 1 koef = v(x'*x)*x'*y %lear coeffcet vector b koef = lsolve(x,y) koef3 = x\y xx = m(x):.1:max(x); yy = koef(1).*xx+koef(); hold o plot(xx,yy) hold off y b b x 1 5

Leárí regrese y=b 1 x+b Z podmíky mmálost čtverců jsou vyvozey ormálí rovce, ze kterých se jejch řešeím vypočtou ezámé parametry b 1 a b. cov( xy, ) b1 var( x) xy xx b y b1 x Kovarace: Pearsoův korelačí koefcet: cov( x, y) x x y y 1 cov( xy, ) ( xy, ) var( x) var( y) Root Mea quare Error: xy ( xy, ) ( x) ( y) ( xy, ) 1,1 RME 1 Y Y Korelace áhodých proměých

Leárí regrese v Matlabu 1 y=b(1)*x+b() 9 7 5 3 1 =1; x=rad(,1); y=*x+rad(,1)/+3; % data scatter(x,y,5,'g','flled') [C,P]=corr(x,y) %R correlato, p-values H: No correlato. If P(,j) s small, say less tha.5, the the correlato R(,j) s sgfcat..5 1 1.5.5 3 3.5 [b,bt,r,rt,stats]=regress(y,[x,oes(,1)]); % stats: R^, F statstcs, p-value, refle(b) fprtf('r^ %1.3g \',stats(1)) fprtf('p-hodota = %1.3g \',stats(3)) % Rezduálí a regresí součet čtverců Rezduálí součet čtverců (ME* ) Regresí součet čtverců odchylek predkcí od průměru rez 1 e reg ( y y ) 1 ( y y) 1 Celkový součet = součet čtverců odchylek dat od průměru yy ( y y) 1 Regresí detta Koefcet determace R yy reg yy reg rez 1 rez yy Mea quared Error = rez / Root Mea quared Error RME rez 7

y Iterval spolehlvost pro predkc Pás spolehlvost Leárí regrese y=x y =,7x +,377 R =,973 1 - - -1-1 1 1 - - - x Leárí regrese v Matlabu 1 y=b(1)*x+b() 9 7 5 3 =1; x=rad(,1); y=*x+rad(,1)/+3; % data scatter(x,y,5,'g','flled') [R,P]=corr(x,y); % l. korelace, p-value, 1 [b,bt,r,rt,stats]=regress(y,[x,oes(,1)]); % stats: R^, F statstcs, p-value, refle(b).5 1 1.5.5 3 3.5 fprtf('r^ %1.3g \',stats(1)) fprtf('p-hodota = %1.3g \',stats(3)) %

Resduals Leárí regrese v Matlabu rcoplot(r,rt) Resdual Case Order Plot 1.5 1.5 -.5-1 -1.5-1 3 5 7 9 1 Case Number Leárí regrese v Matlabu polytool(x,y,1) - - - -1.5-1 -.5.5 1 1.5 9

Robustí leárí regrese v Matlabu robustdemo(x,y); [b_r,stats_r]=robustft(x,y) Use left mouse butto to select ad drag pots Use rght mouse butto to query pot propertes 7 5 rez 1 e ( y y ) 1 Mea quared Error = rez / Root Mea quared Error yleast 3 squares Robust 1-1 - -.5 - -1.5-1 -.5.5 1 1.5.5 x RME rez Least squares: Robust: Y =.957 + 1.911*X Y =.93 + 1.95*X RM error =.5 RM error =.53759 y a b x l y l a x l b b b1 Expoecálí regrese Použjeme leárí regres a trasformovaé y-souřadce. x,l y.5 1 1.5.5 3 b l a a e b l b b e x= rad(,1)*3; %uform dstrbuto (,3) yo=*3.^x+rad(,1); % ose exp. depedece y=a*b^x y=log(yo); scatter(x,yo,'flled','g') [C,P]=corr(x,y) %R - Lear correlato coeffcets x(:,)=1; % backward trasformato a=exp(koef()); b=exp(koef(1)); xx=m(x):.1:max(x); yy=a*b.^xx; 5 3 1 1 b b1 1

Neleárí regrese Neleárí regrese Fukc hledám v předepsaém tvaru (expoecálí, polyomálí, ) parametry alezeme metodou ejmeších čtverců Koefcet determace R popsá míra vhodost použtí regresí rovce pro predkováí. Hodoty blízké ule azačují, že zvoleá fukce eí vhodá. Naopak, hodoty blízké 1 azačují, že rovce je velm vhodá pro extrapolac. Malá hodota ale emusí zameat ízký stupeň závslost mez proměým, ale může sgalzovat špatě zvoleou regresí fukc R N 1 N 1 y y y y R reg yy 1 rez yy Mea quared Error = rez / Root Mea quared Error RME rez rez 1 e ( y y ) 1 11

y Neleárí regrese v Matlabu 1 y=b(1)*x +b()*x+b(3) 9 7 5 3 1 x=rad(1,1); y=x.^ + 3 + rad(1,1)/; scatter(x,y,5,'g','flled') b=polyft(x,y,); refcurve(b) -3 - -1 1 3 x Neleárí regrese v Matlabu polytool(x,y,) 1 1 1 - -1.5-1 -.5.5 1 1.5.5 1

y Neleárí regrese v Matlabu fuc=@(a,x)(a(1)*x.^+a()*x+a(3)); 9 a=[1;;3]; ahat=lft(x,y,fuc,a); %graf xrage = m(x):.:max(x); 7 hold o scatter(x,y) plot(xrage,fuc(ahat,xrage),'m') hold off 1 5 lft: @(a,x)(a(1)*x. +a()*x+a(3)); 3 - -1.5-1 -.5.5 1 1.5.5 3 x Neleárí regrese v Matlabu ltool(x,y,fuc,a) 1 9 7 5 3 -.5 - -1.5-1 -.5.5 1 1.5 13

esty korelačí aalýzy Kotgečí tabulky umožňují testováí růzých statstckých hypotéz: hypotéza o ezávslost zaků - oba zaky se vzájemě eovlvňují (výška rodčů emá vlv a výšku dětí) hypotéza o shodost struktury (homogetě) - očekávaé četost jsou v políčcích každého řádku ve stejém vzájemém poměru bez ohledu a kokrétí volbu řádku (rozložeí výšky je stejé u otců u syů) Klascký test ezávslost ebo homogety je založe a testu dobré shody, tedy porováí očekávaých četostí v jedotlvých políčcích tabulky za předpokladu, že hodoty obou sledovaých zaků a sobě ezávsí, a skutečých četostí Korelačí aalýza ordálích velč Je důležté odlšt případy, kdy je ordálího charakteru pouze jeda proměá a kdy obě. V případech, kdy jsou obě sledovaé proměé ordálího charakteru, můžeme použít testováí, založeé a pořadí. Wlcoxoův test Ma-Whtey test Kedallův korelačí koefcet τk - tau k Goodma-Kruskalův koefcet γ je varatou kedallova τk Pokud je ordálí je jeda, pak: Kruskal-Wallsův test 1