Regresní a korelační analýza
Závslost příčnná (kauzální). Závslostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně odpovídá výskyt druhé jevu (a často naopak). Z pravděpodobnostního hledska jde o vztah, který se projeví s jstotou. Průběh závslost (v určtém ntervalu) lze přesně charakterzovat určtou matematckou funkcí. Volná závslost je závslost, př níž jeden jev podmňuje jev jný jen s určtou pravděpodobností a v různé ntenztě. Určté hodnotě jedné velčny odpovídá celá řada různých hodnot druhé velčny. U této závslost lze charakterzovat teoretcký průběh závslost a její těsnost. Regresní analýza se zabývá jednostranným závslostm. Jedná se o stuac, kdy prot sobě stojí vysvětlující (nezávsle) proměnná v úloze příčn a vysvětlovaná (závsle) proměnná v úloze následků. Korelační analýza se zabývá vzájemným (většnou lneárním) závslostm, kdy se klade důraz především na ntenztu (sílu) vzájemného vztahu než na zkoumání velčn ve směru příčna následek.
Dvourozměrné rozdělení četnost (x,y) = 0.0 6 4 y 0 - -4-6 -6-4 - 0 4 6 x
Kontngenční (korelační) tabulka Řádek korelační tabulky obsahuje rozdělení četností znaku Y za podmínky, že znak X nabyl určté konkrétní hodnoty (příp. hodnot určtého ntervalu). - podmíněné rozdělení četností znaku Y. oučtový řádek nepodmíněné rozdělení četností znaku Y. loupec korelační tabulky obsahuje rozdělení četností znaku X za podmínky, že znak Y nabyl určté konkrétní hodnoty (hodnot z určtého ntervalu), - podmíněné rozdělení četností znaku X. oučtový sloupec nepodmíněné rozdělení četností znaku X. Četnost v součtovém řádku a součtovém sloupc nazýváme okrajovým (margnálním) četnostm.
Příklad 1 Př sledování tělesné výšky chlapců byl vysloven předpoklad, že výška dítěte je do značné míry ovlvněna výškou rodčů. Následné šetření bylo provedeno celkem u 45 chlapců a jejch otců. Z výsledků šetření byla sestavena korelační tabulka pro znaky výška otce v cm (X) a výška syna v cm (Y) : Y 170 174,9 175 179,9 180 184,9 185 189,9 X 190 a více n. 164 168,9 1 3 169 173,9 3 1 8 174 178,9 3 8 1 1 15 179 183,9 3 6 9 184 188,9 3 5 8 189 a více 1 1 n.j 6 6 11 14 8 45
Výška syna (cm) Příklad 1 05 00 195 190 185 180 175 170 165 160 Bodový korelační graf pro znázornění závslost mez výškou otce a výškou syna 160 165 170 175 180 185 190 195 Výška otce (cm)
Postup př stanovení nejvhodnější funkce logcké posouzení daného vztahu které proměnné a funkce přcházejí v úvahu, využtí zkušeností z podobných analýz apod. vytvoření bodového korelačního grafu (scatter plot) jako nejvhodnější zvolíme tu funkc, která má nejvyšší hodnotu koefcenty determnace, příp. lze využít dalších matematckostatstckých krtérí (F test).
Výška syna (cm) Lneární regrese Metoda nejmenších čtverců Parametry funkce hledáme tak, aby součet čtverců chyb e byl mnmální. Pro danou regresní funkc tento součet nazýváme rezduální součet čtverců. 05 00 195 190 185 180 175 170 165 160 Bodový korelační ngraf pro n znázornění závslost mez výškou otce a výškou rez e ( y y ) mn. syna 1 1 y a x, y x, y e bx 160 165 170 175 180 185 190 195
Lneární regrese y=b 1 x+b 0 Z podmínky mnmálnost čtverců jsou vyvozeny normální rovnce, ze kterých se jejch řešením vypočtou neznámé parametry b 1 a b 0. b 1 cov( xy, ) var( x) Výběrový lneární korelační koefcent xy xx b0 y b1 x n 1 cov( x, y) x x y y n 1 1 Root Mean quare Error: RME n 1 Y Y n
Rezduální a regresní součet čtverců Rezduální součet čtverců (ME* n) Regresní součet čtverců odchylek predkcí od průměru rez n 1 e reg n ( y 1 n ( y 1 y) y) Celkový součet = součet čtverců odchylek dat od průměru yy n ( y 1 y) Regresní dentta Koefcent determnace R yy reg yy reg rez 1 rez yy Mean quared Error = rez /n Root Mean quared Error RME rez n
Výška syna (cm) 00 Korelační pole pro závslost výšky syna na výšce otce 195 190 185 180 175 y = 0,573x + 80,178 170 165 160 160 165 170 175 180 185 190 195 00 05 Výška otce (cm)
y Interval spolehlvost pro predkc Pás spolehlvost Lneární regrese y=x y =,007x +,3778 R = 0,6973 10 8 6 4 0 - - -1-1 0 1 1 - -4-6 x
Lneární regrese v Matlabu 10 y=b(1)*x+b() 9 8 7 6 5 4 3 n=100; x=randn(n,1); y=*x+randn(n,1)/+3; % data scatter(x,y,50,'g','flled') [R,P]=corr(x,y); % ln. korelace, p-value, 1 0 0 0.5 1 1.5.5 3 3.5 4 [b,bnt,r,rnt,stats]=regress(y,[x,ones(n,1)]); % stats: R^, F statstcs, p-value, reflne(b) fprntf('r^ %1.3g \n',stats(1)) fprntf('p-hodnota = %1.3g \n',stats(3)) %
Resduals Lneární regrese v Matlabu rcoplot(r,rnt) Resdual Case Order Plot 1.5 1 0.5 0-0.5-1 -1.5-10 0 30 40 50 60 70 80 90 100 Case Number
Lneární regrese v Matlabu polytool(x,y,1) 8 6 4 0 - -4 - -1.5-1 -0.5 0 0.5 1 1.5
Robustní lneární regrese v Matlabu robustdemo(x,y); [b_r,stats_r]=robustft(x,y) Use left mouse button to select and drag ponts Use rght mouse button to query pont propertes 8 7 6 5 4 rez n 1 e ( y 1 Mean quared Error = rez /n Root Mean quared Error n y) yleast 3 squares Robust 1 0-1 - -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 x RME rez n Least squares: Robust: Y =.95067 + 1.9411*X Y =.9483 + 1.9454*X RM error = 0.50848 RM error = 0.534759
Nelneární regrese
Nelneární regrese Funkc hledám v předepsaném tvaru (exponencální, polynomální, ) parametry nalezneme metodou nejmenších čtverců Koefcent determnace R popsná míra vhodnost použtí regresní rovnce pro predkování. Hodnoty blízké nule naznačují, že zvolená funkce není vhodná. Naopak, hodnoty blízké 1 naznačují, že rovnce je velm vhodná pro extrapolac. Malá hodnota ale nemusí znamenat nízký stupeň závslost mez proměnným, ale může sgnalzovat špatně zvolenou regresní funkc R N 1 N 1 y y y y R reg yy 1 rez yy Mean quared Error = rez /n Root Mean quared Error RME rez n rez n 1 e n ( y 1 y)
Korelace náhodných proměnných 6 (x,y) = 0.0 0.0 (x,y) = 0.7 6 (x,y) = 0.7 4 4 y 0 y 0 - - -4-4 -6-6 -4-0 4 6-6 -6-4 - 0 4 6 x x N = 10000
Korelace náhodných proměnných (x,y) (x,y) = -0.7 = - (x,y) (x,y) = = 0.96 6 6 4 4 y 0 y 0 - - -4-4 -6-6 -4-0 4 6-6 -6-4 - 0 4 6 x x N = 10000
Korelace náhodných proměnných
Nelneární regrese v Excelu Graf > přdat spojnc trendu koefcent spolehlvost R je koefcent determnace
Nelneární regrese v Excelu Graf > přdat spojnc trendu koefcent spolehlvost R je koefcent determnace R reg yy
y Nelneární regrese v Matlabu 10 y=b(1)*x +b()*x+b(3) 9 8 7 6 5 4 3 1 x=randn(100,1); y=x.^ + 3 + randn(100,1)/; scatter(x,y,50,'g','flled') b=polyft(x,y,); refcurve(b) 0-3 - -1 0 1 3 x
Nelneární regrese v Matlabu polytool(x,y,) 14 1 10 8 6 4 0 - -1.5-1 -0.5 0 0.5 1 1.5.5
y Nelneární regrese v Matlabu func=@(a,x)(a(1)*x.^+a()*x+a(3)); 9 a0=[1;0;3]; ahat=nlnft(x,y,func,a0); %graf xrange = mn(x):.0:max(x); 7 hold on scatter(x,y) 6 plot(xrange,func(ahat,xrange),'m') hold off 10 8 5 nlnft: @(a,x)(a(1)*x. +a()*x+a(3)); 4 3 - -1.5-1 -0.5 0 0.5 1 1.5.5 3 x
Nelneární regrese v Matlabu nlntool(x,y,func,a0) 10 9 8 7 6 5 4 3 -.5 - -1.5-1 -0.5 0 0.5 1 1.5
Testy korelační analýzy Kontngenční tabulky umožňují testování různých statstckých hypotéz: hypotéza o nezávslost znaků - oba znaky se vzájemně neovlvňují (výška rodčů nemá vlv na výšku dětí) hypotéza o shodnost struktury (homogentě) - očekávané četnost jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku (rozložení výšky je stejné u otců u synů) Klascký test nezávslost nebo homogenty je založen na testu dobré shody, tedy porovnání očekávaných četností v jednotlvých políčcích tabulky za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávsí, a skutečných četností
Chí-kvadrát test v Excelu H 0 náhodné výběry pocházejí ze stejného rozdělené CHITET(aktuální;očekávané) aktuální četnost získáné použtím funkce četnost(data, hodnoty). očekávané jak by četnost vypadaly pro teoretcké rozdělení sestejným počtem pozorování a stejným hodnotam. funkce CHITET vrací p-hodnotu. Pro p<a zamítáme hypotézu, že jsou rozdělení stejná Chí-kvadrát test v Matlabu (procedury I.Nagy) chsquare_test.m chsquare_test_h.m H 0 :obě rozdělení jsou shodná chsquare_test_.m H 0 :rozdělení jsou nezávslá
Testování lneární regrese T test korelačního koefcentu (Pearsonův test) H 0 : data nejsou vhodná k lneární regres t_test_reg.m F test poměru vysvětleného a nevysvětleného rozptylu H 0 : data nejsou vhodná k lneární regres f_test_reg.m y kx q =LINREGREE(pole_y;pole_x;PRAVDA;PRAVDA) =INTERCEPT(pole_y;pole_x) =LOPE(pole_y;pole_x) absolutní člen q směrnce k
y Kvadratcká regrese Koefcent determnace 10 9 y = 1,9733x - 0,0103x + 0,5794 R = 0,9898 8 7 6 5 4 3 1 0 - - -1-1 0 1 1 x rez 3,617 reg 349,6751 `=VAR(f(x))*n průměr y,89,89 xx 56,75074 `=VAR(x)*n Celkový součet čtverců yy 353,3079 353,9 =rez+reg `=VAR(y)*n Rezduální rozptyl e 0,075357 =rez/(n-) Koefcent determnace R 0,98976 0,04605 =reg/(rez+reg) `=R^ Pearsonův korel. Koefcent R -0,14597-0,146 =PEARON(data_x;data_y)
F test poměru vysvětleného a nevysvětleného rozptylu H0: Data nejsou vhodná pro regres F ( n ) reg rez F(1, n ) pravostranný test p hodnota P F F 0 LINREGREE y=kx+q směrnce k, q,7158689 7,534689 st.chyba koefcentů 0,44474 0,749496 Koef. Determnace R,st. Chyba odhadu y 0,4603464 5,45447 F statstka, df 40,945939 48 regresn a rezdualn součet čtverců reg, rez 116,6159 130,706
Korelační analýza ordnálních velčn Je důležté odlšt případy, kdy je ordnálního charakteru pouze jedna proměnná a kdy obě. V případech, kdy jsou obě sledované proměnné ordnálního charakteru, můžeme použít testování, založené na pořadí. Wlcoxonův test Mann-Whtney test Kendallův korelační koefcent τk - tau k Goodman-Kruskalův koefcent γ je varantou kendallova τk Pokud je ordnální jen jedna, pak: Kruskal-Wallsův test