MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS (u statistických jednotek souběžně zkoumáno více statistických znaků) Hledání tzv. příčinných (kauzálních) souvislostí. Dvě náhodné veličiny mohou být statisticky závislé, nebo nezávislé. dvojice měření (x i, y j ), i = 1,, n, j = 1,, m, lze graficky znázornit. graf typu 1 - body vyplňují zhruba plochu kruhu - statistická nezávislost. - jednotlivým hodnotám x i odpovídají libovolné hodnoty y j grafy typu 2, 3 - body soustředěné na ploše elipsy - vyšším hodnotám jedné proměnné odpovídají spíše vyšší hodnoty druhé proměnné, nebo vyšším hodnotám jedné proměnné odpovídají spíše menší hodnoty druhé proměnné - zakreslené výsledky seskupeny kolem přímek - lineární závislost graf typu 4 - body se přimykají ke křivce (různé od přímky) - nelineární závislost
Jestliže každé hodnotě veličiny X odpovídá několik hodnot NV Y, např. y j, j = 1,, k, z hodnot y j můžeme vypočítat podmíněné průměry s i, které závisejí na x. Hledáme funkční závislost s i = f(x), tuto funkci nazýváme regresní funkcí. Př: Údaje v tabulce jsou výsledkem průzkumu výšky a váhy studentek VŠFS. V něm každá z 46 oslovených studentek odpovídala na dvě otázky: 1) Kolik měří znak x 2) Kolik váží znak y č. ž/m výška váha SZ1 výška SZ2 váha 89 ž 151 45 1 1 34 ž 157 80 1 6 51 ž 158 49 1 1 94 ž 158 49 1 1 32 ž 160 49 1 1 41 ž 161 52 2 2 83 ž 162 75 2 5 31 ž 163 60 2 3 81 ž 163 68 2 4 4 ž 164 51 2 1 33 ž 164 55 2 2 37 ž 164 60 2 3 87 ž 164 62 2 3 88 ž 164 62 2 3 7 ž 165 52 2 2 3 ž 165 54 2 2 39 ž 165 55 2 2 84 ž 165 60 2 3 96 ž 165 60 2 3 49 ž 166 57 3 2 44 ž 167 58 3 3 91 ž 167 58 3 3 48 ž 167 65 3 4 90 ž 167 75 3 5 1 ž 168 53 3 2 45 ž 168 58 3 3 40 ž 168 60 3 3 82 ž 168 60 3 3 92 ž 168 79 3 6 95 ž 170 58 3 3 2 ž 170 64 3 4 85 ž 170 68 3 4
35 ž 170 70 3 5 80 ž 170 70 3 5 50 ž 171 65 4 4 36 ž 172 59 4 3 6 ž 173 56 4 2 46 ž 173 60 4 3 47 ž 173 63 4 3 38 ž 175 64 4 4 43 ž 176 54 5 2 93 ž 176 70 5 5 86 ž 176 87 5 6 42 ž 177 68 5 4 5 ž 180 82 5 6 97 ž 185 95 5 6 Dostáváme 46 dvojic hodnot znaku x a y. Znak x výška Interval xi ni do 160 1 5 (160-165> 2 14 (165-170> 3 15 (170-175> 4 6 175 a více 5 6 Znak y váha Interval yi ni do 51> 1 5 (51-57> 2 9 (57-63> 3 15 (63-69> 4 7 (69-75> 5 5 75 a více 6 5 Setřídíme tyto hodnoty do tabulky dvourozměrného rozdělení četností ozn. korelační tabulka.
y j SZ2 váha Absolutní 1 2 3 4 5 6 četnosti x i SZ1 výška SZ1 n i,. 1 4 0 0 0 0 1 5 2 1 5 6 1 1 0 14 3 0 2 6 3 3 1 15 4 0 1 3 2 0 0 6 5 0 1 0 1 1 3 6 Absolutní četnosti SZ2 n.,j 5 9 15 7 5 5 46 n i x i s i 5 1 2,00 14 2 2,71 15 3 3,67 6 4 3,17 6 5 4,83 s i k j 1 n y n i, j ij s 1 = (1*4+2*0+3*0+4*0+5*0+6*1)/5 = 2,00 s 2 = (1*1+2*5+3*6+4*1+5*1+6*0)/14= 2,71 Základní úkol regresní analýzy = nalezení vhodné teoretické regresní funkce k vystižení sledované závislosti. x je nezávisle proměnná v úloze příčin y je závisle proměnná v úloze následků Korelační analýza - navazuje na regresní analýzu - hlavní úkol = měření těsnosti zkoumané statistické závislosti. correlatió znamená vzájemná souvislost
1. Regresní analýza Cíl regresní analýzy: proložit množinu bodů A 1,, A 5 hladkou matematickou křivkou (ve zvoleném příkladu přímkou jednoduchá lineární regresní analýza. Typy regresních analýz podle typu prokládané křivky (lineární (ekonomie), kvadratická (obecně polynomická regrese), exponenciální regrese (šíření epidemií), logaritmická regrese, hyperbolická regrese, ). Lineární regresní analýza přímka o rovnici y 1 b b x 0 bude optimálně proložena, když součet S vzdáleností s i a bodů na této přímce y i bude minimální S = (y i - s i ) 2 y i = b 0 + b 1 x i S = (b 0 + b 1 x i - s i ) 2 minimum : S = 0, b 0 S = 0 b 1 s nb b x i 0 1 2 i i 0 i 1 i s x b x b x i - tzv. první a druhá normální rovnice pro lineární regresní analýzu výpočet b 0, b 1 předpověď trendů n i x i s i x i. s i x i 2 5 1 2,00 2,00 1 14 2 2,71 5,43 4 15 3 3,67 11,00 9 6 4 3,17 12,67 16 6 5 4,83 24,17 25 46 15 16,38 55,26 55 16,38 = 5. b 0 + b 1. 15 55,26 = b 0. 15 + b 1. 55
6,12 = 10 b 1 b 1 = 0,612 b 0 = 1,44 Regresní přímka má tvar y = 1,44 + 0,612x Kvadratická regresní analýza S = (s i - y i ) 2 y = b 0 + b 1 x + b 2 x 2 S S S = 0 = 0 = 0 b 0 b 1 b 2 s i = nb 0 + b 1 x i + b 2 x i 2 s i x i = b 0 x i + b 1 x i 2 + b 2 x i 3 s i x i 2 = b 0 x i 2 + b 1 x i 3 + b 2 x i 4 výpočet b 0, b 1, b 2 předpověď trendů největší uplatnění RA v ekonomii časové řady ekonomických ukazatelů (rozpočty). 2. Korelační analýza Cíl korelační analýzy: po provedení regresní analýzy zjistit korelační analýzou TĚSNOST statistické závislosti mezi statistickými znaky SZ-x, SZ-s daného VSS. Jednoduchá lineární korelace (statistická závislost je vystižena lineární regresní funkcí) Pearsonův korelační koeficient k S Sx. S s S P ( x x )( s s ) smíšený centrální moment C i i i 2 (x,s) 2 2 S P x x centrální moment C 2 (x) ( ) x i i 2 2 S P ( s s ) centrální moment C s i i 2 (s)
P i = n i /n k 1;1 1; 0, 6 těsná negativní korelace 0,6; 0, 2 volná negativní korelace 0, 2;0, 2 nekorelováno 0, 2;0,6 volná pozitivní korelace 0,6;1 těsná pozitivní korelace n i x i s i n i.x i n i. s i (x i ) (s i - ) n i. (x i - ).(s i - ) n i. (x i ) 2 n i. (s i - ) 2 5 1 2,00 5 10,00-1,87-1,28 11,99 17,48 8,23 14 2 2,71 28 37,94-0,87-0,57 6,92 10,59 4,52 15 3 3,67 45 55,05 0,13 0,38 0,75 0,26 2,21 6 4 3,17 24 19,02 1,13-0,12-0,79 7,67 0,08 6 5 4,83 30 28,98 2,13 1,55 19,82 27,23 14,43 46 15 16,38 132 150,99 38,70 63,22 29,47 =1/n n i.x i = 132/46 = 2,87 = 150,99/46 = 3,28 S P ( x x )( s s ) = 38,70/46 = 0,841 i i i 2 2 S P x x = 63,22/46 = 1,37 S x = S 2 x = 1,172 ( ) x i i S s 2 = 29,47/46 = 0,641 S s = 0,800 k S Sx. S s = 0,841/(1,172 * 0,800) = 0,897 Těsná pozitivní korelace mezi výškou a váhou studentek.
1) V tabulce jsou uvedeny údaje o růstu průměrných mezd v posledních deseti letech. Trend výše mezd vystihněte lineární trendovou funkcí. Tab. 2 Výše mezd v letech 1998-2007 Rok Mzdy y t 1998 11 555 1999 12 587 2000 13 323 2001 14 490 2002 15 568 2003 16 527 2004 17 735 2005 18 837 2006 19 954 2007 21 470 Při znalosti trendové přímky zkonstruujte bodovou předpověď vývoje průměrných mezd pro roky 2008 a 2009. výsledky: y = 10 236 + 1085.t