1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost, síla) jejich vzájemného ovlivňování. V praxi neznáme společné rozdělení pravděpodobností těchto znaků pro zkoumání těsnosti musíme využít metody matematické statistiky korelační analýzy. 1.1. Teoretické základy korelační analýzy Předpokládejme, že máme dvě náhodné veličiny X; Y, které mají nekonečné a nenulové rozptyly DX; DY. Pokud jsou X; Y závislé, musíme závislost číselně vyjádřit. K vyjádření míry závislosti se u lineárního typu závislosti používá korelační koeficient. Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. Náhodné veličiny X; Y jsou korelované, existuje mezi nimi korelační vztah. 1
Kovariance Uvažujeme případ, kdy: X = (X 1 ; X 2 ; ; X m ) Y = (Y 1 ; Y 2 ; ; Y m ) EX = (EX 1 ; EX 2 ; ; EX m ) je m-rozměrný náhodný vektor s vektorem středních hodnot a EY = (EY 1 ; EY 2 ; ; EY m ) s konečnými nenulovými rozptyly jednotlivých složek. Kovariance náhodných veličin X a Y vyjadřuje vzájemný vztah mezi těmito veličinami a je dána výrazem: cov (X;Y) = E [(X-EX) (Y-EY)] = EXY EXEY Náhodný vektor může být i více než dvojrozměrný. Proto musíme vyjádřit vztah mezi každou dvojicí X i a X j náhodných. Kovariance všech dvojic pak zapisujeme do matice. Kovariance Kovariance je střední hodnota součinu odchylek obou náhodných veličin X, Y od jejich středních hodnot. Máme-li dvourozměrný náhodný vektor, jehož složkami jsou náhodné veličiny X, Y, pak vztah mezi těmito veličinami lze vyjádřit pomocí kovariance C(X,Y), která je definována jako 2
2. Výběrový koeficient korelace Nechť je dán dvojrozměrný náhodný výběr [(X 1 ; Y 1 ); (X 2 ; Y 2 ); ; (X n ; Y n );]. Výběrový koeficient korelace r X; Y náhodných veličin X a Y definujeme jako podíl: Čitatel: výběrová kovariance. Jmenovatel: součin výběrových směrodatných odchylek. Pro praktické výpočty je výhodnější výpočtový tvar tohoto vztahu: Vlastnosti výběrového koeficientu korelace 1. 2. 3. 4. pro ac 5. pro ac 3
4
3. Test významnosti pro koeficient korelace Zjišťujeme, zda mezi dvěma náhodnými veličinami X; Y je korelační vztah. Pokud jsou korelované, je tam vztah.!!!!!! Veličiny jsou nekorelované veličiny jsou nezávislé!!!!!! Proto testujeme hypotézu: H 0 : q=0 (mezi náhodnými veličinami není korelační vztah) proti H 1 : q 0 (je korelační vztah) Předpoklady: Nechť je dán dvojrozměrný náhodný výběr (X 1 ; Y 1 ); (X 2 ; Y 2 ); ; (X n ; Y n ) ze základního souboru (X; Y), Základní soubor má dvojrozměrné normální rozložení pravděpodobností N(. Nechť r je výběrový koeficient korelace. ( 5
Testujeme hypotézu, že koeficient korelace základního souboru je roven nule: H 0 : q=0 proti H 1 : q 0 (není korelační vztah) (je korelační vztah) Testovací kritérium: Za předpokladu platnosti hypotézy má náhodná veličina T Studentovo rozdělení pravděpodobností s n 2 stupni volnosti. Kritická oblast: 6
Příklad: V následující tabulce jsou uvedeny hodnoty dvojrozměrného náhodného výběru. Na úrovni významnosti zjistěte, zda mezi náhodnými veličinami X a Y existuje korelační vztah. Předpokládejme normální rozložení pravděpodobností základního souboru (X; Y). xi 94 98 127 88 85 95 111 75 102 82 yi 2,1 1,9 3,5 1,5 3,2 1,6 1,9 2,5 2,6 1,9 7
Řešení: Testujeme hypotézu: H 0 : q=0 proti H 1 : q 0 i xi yi xi 2 xi * yi yi 2 1 94 2,1 8836 197,4 4,41 2 98 1,9 9604 186,2 3,61 3 127 3,5 16129 444,5 12,25 4 88 1,5 7744 132 2,25 5 85 3,2 7225 272 10,24 6 95 1,6 9025 152 2,56 7 111 1,9 12321 210,9 3,61 8 75 2,5 5625 187,5 6,25 9 102 2,6 10404 265,2 6,76 10 82 1,9 6724 155,8 3,61 součty 957 22,7 93637 2203,5 55,55 průměr 95,7 2,27 Testovací kritérium: Dopočítáme hodnotu výběrového koeficientu korelace ve výpočtovém tvaru: Kritická oblast Kritická hranice (tabulky Studentova t-rozdělení pravděpodobností pro n 2 st. vol.). Hodnota TK padla do OPH. H 0 nezamítáme. Mezi náhodnými veličinami není korelační vztah. 8
4. Spearmanův korelační koeficient Tento test používáme, když při hodnocení těsnosti vztahu náhodných veličin nelze použít obyčejný korelační koeficient: nejsou splněny předpoklady normality rozložení pravděpodobností základního souboru, nebo když v náhodném výběru nemůžeme hodnoty náhodných veličin přesně zjistit a máme k dispozici jen jejich pořadí veličin X 1 ; X 2 ; ; X n a Y 1 ; Y 2 ; ; Y n. Jsou-li tato pořadí podobná, svědčí to o vztahu veličin X i a Y i. Postup testu: 1. seřadíme prvky náhodného výběru X 1 ; X 2 ; ; X n do neklesající posloupnosti a zjistíme jejich pořadí R 1 ; R 2 ; ; R n 2. seřadíme prvky náhodného výběru Y 1 ; Y 2 ; ; Y n do neklesající posloupnosti a zjistíme jejich pořadí Q 1 ; Q 2 ; ; Q n Testovací kritérium (r s ): Kritická oblast: W = r s : r s r 9
Příklad: Zjistěte, zda existuje korelace mezi výkonností hokejistů NHL, vyjádřenou umístěním hokejistů v kanadském bodování po skončení základní části a jejich příjmem. Údaje jsou uvedeny v tabulce. Testujte na hladině významnosti 0,05. x i (pořadí) 1 2 3 4 5 6 7 8 y i (příjem) 3,75 2,5 1,9 3,3 2,15 2,0 3,0 2,85 10
Řešení: Qi 1 2 3 4 5 6 7 8 x Ri 8 4 1 7 3 2 6 5 x (Qi Ri) 2 49 4 4 9 4 16 1 9 96 Testovací kritérium Kritická hranice z tabulek (r ) r = r 0,05 = 0,6905 Vzorec kritické oblasti W = r s : r s r 0,143 0,6905 Hodnota testovacího kritéria padla do OPH. Nulovou hypotézu nezamítáme. Můžeme tedy tvrdit, že není korelační závislost mezi výkonností hráčů NHL a jejich příjmem. 11
5. Korelace u více náhodných veličin Korelační matice Nechť (X 1 ; X 2 ; ; Xn) je náhodný výběr z m-rozměrného základního souboru X = (X 1 ; X 2 ; ; Xm). Výběrovou korelační maticí budeme nazývat matici Diagonální prvky této matice jsou vždy rovny jedné, nediagonální prvky jsou výběrové korelační koeficienty odpovídajících složek. Matice je čtvercová a symetrická. 12
Příklad: U 7 studentů ekonomické školy byly zaznamenány výsledky zkoušek z předmětů matematická ekonomie, mikroekonomie, bankovnictví a finance. Vyjádřete vztah, který je mezi předměty. Student Jana Eva Petr Jan Martin Iva Lucie MME 1 4 2 1 2 4 1 MI 1 1 3 2 2 3 1 BA 2 1 4 3 2 2 2 FI 3 2 1 2 2 2 1 Řešení: Počítáme korelace mezi (X 1 ; X 2 ; X 3 ; X 4 ). Testujeme každý korelační koeficient, abychom mohli říci, zda je významný. Předmět MME MI BA FI MME 1 MI +0,295 1 BA -0,428 +0,61 1 FI +0,026-0,31-0,40 1 13