STATISTICKÁ VAZBA Obsah 1 Korelační analýza 1 1.1 Statistická vazba.................................... 1 1.2 Motivační příklady................................... 1 1.3 Sdružená distribuční funkce a nezávislost náhodných veličin............. 2 1.4 Charakteristiky statistické vazby dvou náhodných veličin............... 4 1.5 Varianční a korelační matice.............................. 5 1.6 Ověřování nezávislosti................................. 6 1.7 Příklad využití korelační analýzy............................ 7 1.8 Výběrová varianční matice............................... 7 Literatura 9 Příklady k procvičení 10 1 Korelační analýza 1.1 Statistická vazba V praktických situacích je velmi častá úloha rozhodnout, jaký je vzájemný vztah dvou (nebo i více náhodných veličin), mluvíme o tom, jaká je statistická vazba mezi těmito náhodnými veličinami. Pro popis intenzity statistické vazby mezi náhodnými veličinami a pro její číslené vyjádření se ve statistice používají metody korelační analýzy, pro analytický popis této vazby se používají metody regresní analýzy. 1.2 Motivační příklady Základní úlohu regresní a korelační analýzy lze jednoduše demonstrovat na následujících dvou příkladech. 1. Na obrázku 1 a) je graficky znázorněn růst cen ve městě Taiwan v období 1940 1946. Nezávislá proměnná X je příslušný rok sledování, závislá proměnná (regresor) Y je index popisující nárůst ceny. Je vidět, že uvedené body sledují přibližně lineární trend (s jedním odlehlým bodem v roce 1943), který je v obrázku znázorněný přímkou a dále, že variabilita jednotlivých bodů kolem této přímky je značná. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326 PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.
2. Na obrázku 1 b) je znázorněna závislost brzdné dráhy automobilu Y (měřená v metrech) na jeho rychlosti X (měřené v km/hod). Data byla získána při testování kvality nově vyrobených pneumatik. Z tohoto obrázku je vidět, že brzdná dráha sleduje nelineární trend a variabilita naměřených hodnot kolem proložené křivky je malá. Zjednodušeně řečeno, z obou obrázků jsou dobře patrné cíle korelační analýzy, tedy popis velikosti statistické vazby mezi X a Y, a cíle regresní analýzy, tedy popis průběhu této stochastické vazby matematickou funkcí. Obrázek 1: a) Index růstu ceny ve městě Taiwan v období 1940 1946, b) Závislost brzdné dráhy automobilu na jeho rychlosti 1.3 Sdružená distribuční funkce a nezávislost náhodných veličin Při popisu statistické vazby mezi náhodnými veličinami X a Y mohou nastat dvě krajní situace. V prvním případě může být vazba mezi proměnnými X a Y deterministická, tedy pevně daná nějakým formálním předpisem. Tak je tomu třeba při studiu fyzikálních zákonitostí, kdy např. ujetou dráhu Y lze přesně vyjádřit jako lineární funkci času X (za daných přesně specifikovaných podmínek). Při experimentálním ověřování této skutečnosti, již mohou být měřené veličiny ovlivněny náhodnou chybou měření a graficky znázorněné naměřené hodnoty času X a ujeté dráhy Y již potom kolísají v úzkých mezích kolem přímky. Narůstající kolísání hodnot proměnné Y v závislosti na hodnotách proměnné X bylo znázorněno na obrázku 1 b), kdy šlo o popis závislosti brzdné dráhy na rychlosti vozidla. Ještě větší kolísání, tedy ještě menší statistickou vazbu mezi veličinami X a Y lze pozorovat na obrázku 1 a), kdy index růstu cen Y poměrně volně lineárně závisí na čase X. V druhém krajním případě mohou být obě sledovaně veličiny X a Y nezávislé. Tak by tomu mohlo třeba být při sledování rychlosti vozidla Y a hmotností jeho řidiče X. Ověřování nezávislosti náhodných veličin je velmi častou praktickou úlohou, proto pojem nezávislosti nejdříve formálně zavedeme. Budeme uvažovat dvě náhodné veličiny X a Y a pomocí nich zavedeme dva náhodné jevy X x a Y y. Když bude pravděpodobnost společného nastoupení obou těchto jevů rovna součinu jejich pravděpodobností pro libovolné reálné hodnoty x a y, budeme říkat, že náhodné veličiny X a Y jsou nezávislé. Jednodušeji lze nezávislost náhodných veličin zavést pomocí tzv. sdružené distribuční funkce F (x, y), která je rovna pravděpodobnosti společného nastoupení jevů X x a Y y. Tedy F (x, y) = Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326
Obrázek 2: Hustota dvourozměrného normálního rozdělení N 2 (µ X, µ Y, σx 2, σ2 Y, ρ) pro různé hodnoty parametrů µ X, µ Y, σx 2, σ2 Y a ρ P (X x Y y). Obecně lze říci, že sdružená distribuční funkce F (x, y) vyčerpávajícím způsobem popisuje pravděpodobnostní chování obou náhodných veličin X a Y. Některé dvojice náhodných veličin mají sdruženou distribuční funkce popsanou přesnou matematickou funkcí podobně, jako tomu bylo u distribučních funkcí jednotlivých náhodných veličin. Příkladem takové distribuční funkce je distribuční funkce dvourozměrného normálního rozdělení. Toto rozdělení závisí na středních hodnotách EX = µ X, EY = µ Y, rozptylech DX = σ 2 X, DY = σ2 Y a na parametru ρ, jeho význam bude vysvětlen v následujícím odstavci. Toto rozdělení je zobecněním dříve zavedeného jednorozměrného normálního rozdělení, budeme jej značit N 2 (µ X, µ Y, σ 2 X, σ2 Y, ρ). Grafem jeho hustoty je známá zvonovitá funkce a je znázorněna na obrázku 2 pro různé hodnoty parametrů µ X, µ Y, σ 2 X, σ2 Y a ρ. Po zavedení sdružené distribuční funkce lze snadno charakterizovat nezávislost náhodných veličin X a Y. Náhodné veličiny X a Y jsou nezávislé, právě když mezi distribuční funkcí sdruženou a distribučními funkcemi F X (x) náhodné veličiny X a F Y (y) náhodné veličiny Y (tzv. marginálními distribučními funkcemi) platí multiplikativní vztah F (x, y) = F X (x) F Y (y) pro libovolné hodnoty proměnných x a y. Podobně lze nezávislost charakterizovat pomocí sdružené hustoty ve spojitém případě nebo pomocí sdružené pravděpodobnostní funkce v diskrétním případě. V diskrétním případě, kdy obor hodnot náhodné veličiny X je nejvýše spočetná množina M 1 a obor hodnot náhodné veličiny Y je nejvýše spočetná množina M 2 zavádíme sdruženou pravděpodobnostní funkci dvojice X a Y vztahem p(x, y) = P (X = x Y = y) pro (x, y) M 1 M 2. Jsou-li potom 3
p 1 (x) = P (X = x) a p 2 (y) = P (Y = y) pravděpodobnostní funkce veličin X a Y, lze jednoduše nezávislost diskrétních náhodných veličin X a Y charakterizovat vztahem p(x, y) = p 1 (x)p 2 (y) pro (x, y) M 1 M 2. Analogicky ve spojitém případě, lze pravděpodobnostní chování náhodné veličiny popsat hustotou. Sdružené distribuční funkci F (x, y) pak ve spojitém případě odpovídá hustota f(x, y), kterou lze stanovit podle vzorce f(x, y) = 2 F (x,y) pro všechna reálná x a y, kde uvedená derivace existuje. x y Je-li f 1 (x) hustota náhodné veličiny X a f 2 (y) hustota náhodné veličiny Y, lze jednoduše nezávislost spojitých náhodných veličin X a Y charakterizovat vztahem f(x, y) = f 1 (x)f 2 (y) pro libovolné reálné hodnoty x a y. Při popisu skupinové nezávislosti komplexu k náhodných veličin X 1, X 2,..., X k se postupuje podobně, zavede se sdružená distribuční funkce F (x 1, x 2,..., x k ) = P (X 1 x 1 X 2 x 2 X k x k ) náhodných veličin X 1, X 2,..., X k. Pak se náhodné veličiny X 1, X 2,..., X k považují za nezávislé, když platí, že F (x 1, x 2,..., x k ) = F 1 (x 1 ) F 2 (x 2 ) F k (x k ), kde distribuční funkce na pravé straně jsou marginální distribuční funkce náhodných veličin X 1, X 2,..., X k. V této souvislosti se k-tice náhodných veličin (X 1, X 2,..., X k ) nazývá náhodným vektorem a značí se X. Náhodné vektory budeme dále v tomto textu zapisovat do sloupce, tedy budeme psát X 1 X 2 X = (X 1, X 2,..., X k ) =., přičemž (X 1, X 2,..., X k ) značí transpozici vektoru (X 1, X 2,..., X k ). Analogicky lze nezávislost diskrétních (nebo spojitých) náhodných veličin (X 1, X 2,..., X k ) charakterizovat pomocí sdružené pravděpodobnostní funkce (nebo sdružené hustoty). 1.4 Charakteristiky statistické vazby dvou náhodných veličin Nejdříve se budeme věnovat statistické vazbě mezi dvěma náhodnými veličinami X a Y. Popíšeme ji pomocí kovariance a korelačního koeficientu. Kovarianci náhodných veličin X a Y označíme cov(x, Y ) a zavedeme ji pomocí střední hodnoty součinu odchylek obou náhodných veličin od jejich střední hodnoty. Tedy vztahem cov(x, Y ) = E(X EX)(Y EY ) = E(X µ X )(Y µ Y ). Kovariance cov(x, Y ) náhodných veličin nabývá hodnot mezi σ X σ Y a σ X σ Y. Pro náhodnou veličinu X platí, že cov(x, X) = DX. Když jsou náhodné veličiny X a Y nezávislé, je jejich kovariance rovna nule. V případě, že víme, že sdružené rozdělení náhodných veličin X a Y je normální, je cov(x, Y ) rovna nule, právě když jsou náhodné veličiny X a Y nezávislé. Pomocí kovariance potom zavedeme korelační koeficient náhodných veličin X a Y, někdy se nazývá Pearsonův korelační koeficient a značí se ρ nebo detailněji ρ(x, Y ). Je definován vztahem X k ρ(x, Y ) = cov(x, Y ) σ X σ Y. 4
Korelační koeficient je snad nejčastěji užívanou mírou statistické vazby mezi náhodnými veličinami X a Y. Jeho výhodou oproti kovarianci je, že nabývá hodnot mezi 1 a 1. Když nabývá hodnoty 1, je mezi X a Y přímý lineární vztah, když nabývá hodnoty 1, je mezi X a Y nepřímý lineární vztah. V obou těchto případech lze průběh statistické vazby mezi Y a X popsat přímkou a pozorované hodnoty dvojice X a Y leží na této přímce. Tedy v této situaci je mezi Y a X deterministický lineární vztah. V případě, že hodnota korelačního koeficientu je rovna nule, říkáme, že náhodné veličiny X a Y jsou nekorelované. Pro náhodnou veličinu X platí, že korelační koeficient ρ(x, X) = 1. V případě, že sdružené rozdělení náhodných veličin X a Y je normální N 2 (µ X, µ Y, σx 2, σ2 Y, ρ), je parametr ρ roven korelačnímu koeficientu ρ(x, Y ). Dále v tomto případě platí, že korelační koeficient ρ(x, Y ) = 0, právě když jsou obě veličiny X a Y nezávislé. Velikost korelačního koeficientu určuje, jak silná je statistická vazba mezi veličinami X a Y. Čím je absolutní hodnota korelačního koeficientu blíže 1, tím je sledovaná vazba mezi X a Y větší. Druhá mocnina korelačního koeficientu se nazývá koeficientem determinace. Jeho hodnota vyjádřená v procentech, budeme ji značit d, udává v procentech variabilitu proměnné Y, kterou lze vysvětlit variabilitou proměnné X. Tedy d = 100ρ 2. Celkově je možné říci, že kovariance a korelační koeficient jsou kvalitní míry statistické vazby mezi náhodnými veličinami X a Y v situaci, kdy lze tuto vazbu charakterizovat jako lineární. 1.5 Varianční a korelační matice Popis statistické vazby mezi k náhodnými veličinami X 1, X 2,..., X k se často jednoduše provádí pomocí popisu statistické vazby mezi dvojicemi proměnných, tedy zavedou se kovariance a korelační koeficienty mezi veličinami X i a X j pro všechny možné dvojice indexů i a j a ty se pak uspořádají do matice. Matici kovariancí a rozptylů DX 1 cov(x 1, X 2 )... cov(x 1, X k ) cov(x 2, X 1 ) DX 2... cov(x 2, X k ) V ar(x) =...... cov(x k, X 1 ) cov(x k, X 2 )... DX k pak nazýváme varianční maticí náhodného vektoru X = (X 1, X 2,..., X k ). Matici korelačních koeficientů 1 ρ(x 1, X 2 )... ρ(x 1, X k ) ρ(x 2, X 1 ) 1... ρ(x 2, X k ) Cor(X) =...... ρ(x k, X 1 ) ρ(x k, X 2 )... 1 pak nazýváme korelační maticí náhodného vektoru X = (X 1, X 2,..., X k ). Varianční matice popisuje pravděpodobnostní chování náhodného vektoru podobně, jako rozptyl popisuje pravděpodobnostní chování náhodné veličiny. Korelační matice (a podobně varianční matice) pak popisuje strukturu statistických vazeb mezi studovanými náhodnými veličinami. Pro popis statistické vazby náhodné veličiny Y na náhodném vektoru X lze zavést koeficient mnohonásobné korelace ρ(y, X). Je to vlastně korelační koeficient mezi náhodnou veličinou Y a 5
její nejlepší lineární predikcí získanou pomocí náhodného vektoru X. Konečně pro popis statistické vazby mezi náhodnými veličinami Y a Z při současné eliminaci vlivu, který může být způsobem dalšími veličinami X 1, X 2,..., X k se zavádějí tzv. parciální korelační koeficienty ρ(y, Z X). Kromě toho existuje řada dalších měr statistické vazby (např. Spearmanův korelační koeficient, Kendallův korelační koeficient apod.), které se užívají v závislosti na tom, s jakým typem náhodných veličin se pracuje. Bude o nich pojednáno později. 1.6 Ověřování nezávislosti Budeme předpokládat, že sledujeme dvě náhodné veličiny X a Y a cílem je ověřit jejich nezávislost. K tomu pořídíme datový soubor, kdy budeme na n nezávislých statistických jednotkách pozorovat hodnoty obou znaků. V matematické terminologii to znamená, že provedeme náhodný výběr rozsahu n ze sdruženého rozdělení náhodných veličin X a Y. Označíme x i a y i pozorování dvojice X a Y zjištěné na i-té statistické jednotce, i = 1, 2,..., n. Z těchto hodnot potom vypočteme výběrový průměr x znaku X a výběrový průměr ȳ znaku Y podle vzorců x = 1 n n x i a ȳ = 1 n i=1 n y i. i=1 Lze ukázat, že platí E x = µ x, E ȳ = µ y. To znamená, že hodnoty průměrů kolísají kolem neznámých odhadovaných středních hodnot µ x, µ y a takové odhady se nazývají nestranné nebo nevychýlené. Dále stanovíme výběrové rozptyly s x a s y podle vzorců s x = 1 n 1 n i=1 (x i x) 2 a s y = 1 n 1 n (y i ȳ) 2. Podobně jako pro výběrové průměry platí i pro výběrové rozptyly s x a s y, že jsou nevychýlenými odhady rozptylů σ 2 X a σ2 Y. Konečně vypočteme výběrovou kovarianci s xy podle vzorce s xy = 1 n 1 i=1 n (x i x)(y i ȳ). i=1 Uvedený odhad je opět nevychýlený. Konečně stanovíme výběrový korelační koeficient r xy podle vzorce r xy = s xy s x s y. (1) Tento odhad již není nevychýlený, ale pro velké hodnoty rozsahu výběru n je přibližně nevychýlený, to znamená, že jeho hodnoty kolísají kolem neznámé hodnoty korelačního koeficientu ρ(x, Y ). Ověřit nezávislost znaků X a Y lze provést za předpokladu, že sdružené rozdělení náhodných veličin X a Y je normální N 2 (µ X, µ Y, σx 2, σ2 Y, ρ). Pak je nezávislost ekvivalentní nekorelovanosti a lze ji ověřit statistickým testem, který vychází z testovací statistiky t = r xy 1 r 2 xy n 2. 6
Když platí, že t > t 1 α (n 2), zamítáme na hladině významnosti α hypotézu nezávislosti náhodných 2 veličin X a Y a závislost X a Y považujeme za statisticky prokázanou na hladině významnosti α. Symbolem t 1 α (n 2) rozumíme (1 α )-kvantil Studentova t-rozdělení o n 2 stupních volnosti (pro 2 2 stanovení kvantilů lze použít prakticky každý dostupný statistický software např. Excel, Statistica, MATLAB apod.). 1.7 Příklad využití korelační analýzy Při sledování provozu firmy po zavedení nové výrobní linky byl po dobu 7 měsíců sledován počet hodin provozu této linky proměnná X a zároveň měsíční náklady na její údržbu v tisících Kč proměnná Y. Výsledky jsou zaznamenány v tabulce 1. Cílem je zjistit, jak počet hodin provozu linky koreluje s náklady na její provoz a otestovat, zda statistická vazba mezi těmito proměnnými je významná. x i 275 350 250 325 375 400 300 y i 149 170 140 164 192 200 165 Tabulka 1: Počet hodin provozu výrobní linky (proměnná X) v závislosti na měsíčních nákladech na její údržbu (proměnná Y ) Řešení: Užitím výše uvedených vzorců snadno zjistíme, že x = 325, ȳ = 168,571, s x = 54,006, s y = 21,493, r xy = 0,973 a d = 94,6. Za předpokladu normality lze provést test nezávislosti obou veličin. Zvolíme hladinu významnosti α = 0,05, vypočteme t = 9,387 a ve statistických tabulkách najdeme kvantil t 1 α (n 2) = t 0,975(5) = 2,571 Studentova t-rozdělení o n 2 = 5 stupních volnosti. 2 Protože t > t 1 α (n 2), zamítáme na hladině významnosti α = 0,05 hypotézu o nezávislosti obou 2 veličin X a Y. Zároveň lze říci, že náklady na údržbu linky lze z d = 94,6 procent vysvětlit dobou provozu linky. Zbylé procento odpovídá jiným nekontrolovaným vlivům. 1.8 Výběrová varianční matice Na závěr tohoto odstavce ještě zmíníme výpočet výběrové varianční a korelační matice náhodného vektoru X = (X 1, X 2,..., X k ). Podobně jako v případě dvou náhodných veličin, budeme předpokládat, že je na n statistických jednotkách pozorován vektor X. Výsledkem těchto pozorováni je potom datová matice x 11... x 1k D =..... x n1... x nk V jejím i-tém řádku je pozorování vektoru X, na i-té statistické jednotce a v j-tém sloupci jsou pozorování proměnné X j na všech statistických jednotkách. Výběrová varianční matice je matice V ar(x), kde kovariance cov(x i, X j ) jsou nahrazeny výběrovými protějšky s ij. Výběrovou varianční. 7
matici budeme značit S a lze ji stanovit ze vzorce S = 1 n 1 D ( I 1 ) n E D, kde I je jednotková matice typu n n a E je matice samých jedniček typu n n. Podobně výběrovou korelační matici označíme R a lze ji stanovit podle vzorce R = Diag 1 (s 1, s 2,..., s k ) S Diag 1 (s 1, s 2,..., s k ), kde Diag 1 (s 1, s 2,..., s k ) značí inverzní matici k diagonální matici Diag(s 1, s 2,..., s k ) s prvky s i = s ii, i = 1, 2..., n, na hlavní diagonále. 8
Literatura Základní MANN, P.S. Introductory Statistics. 6th edition. Hoboken: Wiley, 2007. ISBN 978-0-471-75530-2. MOUČKA, J., RÁDL, P. Matematika pro studenty ekonomie. 1. vyd. Grada 2010. ISBN 978-80- 247-3260-2. NEUBAUER, J., SEDLAČÍK, M., KŘÍŽ, O. Základy statistiky Aplikace v technických a ekonomických oborech. Grada 2012.ISBN: 978-80-247-4273-1. ŘEZANKOVÁ, H. Analýza dat z dotazníkových šetření. 2. vydání, Professional Publishing, 2010. ISBN: 9788074310195. Doporučená AGRESTI, A. Categorical Data Analysis. Second Edition. Wiley 2002. ISBN: 0-471-36093-7. ANDĚL, J. Statisticke metody. 3. vydání. Praha: Matfyzpress, 2003. ISBN 80-86732-08-8. ANDĚL, J. Základy matematické statistiky. 2. vyd. Praha: Matfyzpress, 2007, 358 s. ISBN 978-80-7378-001-2. VÁGNER, M. Integrální počet funkcí jedné proměnné. 1. vydání. Brno: UO, 2005,126 s. ISBN 80-7231-025-9. VÁGNER, M., KAŠTÁNKOVÁ, V. Posloupnosti a řady. 1. vydání. Brno: UO, 2006. ISBN 80-7231-131-X. 9
Příklady k procvičení Příklad 1.1 Náhodné veličiny X a Y mají sdruženou hustotu f(x, y) = x + y pro 0 < x < 1, 0 < y < 1, jinak je tato hustota rovna 0. Stanovte korelační koeficient ϱ(x, Y ). Příklad 1.2 Zjišt ovalo se kolik mg kyseliny mléčné je ve 100 ml krve u matek prvorodiček (hodnoty X i ) a u jejich novorozenců (hodnoty Y i ). Byly získány výsledky uvedené v následující tabulce: X i 40 64 34 15 57 45 Y i 33 46 23 12 56 40 Vypočtěte výběrový korelační koeficient a rozhodněte, zda je mezi množstvím kyseliny mléčné v krvi matek a v krvi jejich novorozenců statisticky významný rozdíl. Příklad 1.3 Zjišt ovalo se jak závisí ve vybraných evropských zemích spotřeba alkoholu (proměnná X)a úmrtnost na cirózu jater (počet zemřelých na tuto diagnózu na 100 000 obyvatel - proměnná Y ). Údaje jsou převzaty z monografie Anděl: Statistické metody. Byly získány výsledky uvedené v následující tabulce: Země FIN NOR IRL NLD SWE GBR BEL AUT DEU ITA FRA X 3,9 4,2 5,6 5,7 6,6 7,2 10,8 10,9 12,3 15,7 24,7 Y ) 3,6 4,3 3,4 3,7 7,2 3,0 12,3 7,0 23,7 23,6 46,1 Údaje jsou převzaty z monografie Anděl: Statistické metody. Vypočtěte výběrový korelační koeficient a rozhodněte, zda je mezi množstvím spotřeby alkoholu a úmrtností na cirózu jater statisticky významný rozdíl. Příklad 1.4 V tabulce níže jsou uvedena data podle monografie Anděl: Statistické metody o počtu úmrtí v Londýně (hodnoty proměnné Y ) od 1. do 15. 12. 1952, kdy Londýn postihla mimořádně silná mlha. Dále jsou uvedeny hodnoty proměnné X, která představuje průměrné znečištění vzduchu v County Hall uváděné v mg/m 3 a hodnoty proměnné Z, která představuje průměrný obsah oxidu siřičitého (počet částic na jeden milion). Den Y i x i z i Den Y i x i z i 1 112 0,30 0,09 9 430 1,22 0,47 2 140 0,49 0,16 10 274 1,22 0,47 3 143 0,61 0,22 11 255 0,32 0,22 4 120 0,49 0,14 12 236 0,29 0,23 5 196 2,64 0,75 13 256 0,50 0,26 6 294 3,45 0,86 14 222 0,32 0,16 7 513 4,46 1,34 15 213 0,32 0,16 8 518 4,46 1,34 10
Stanovte korelační koeficienty r(x, Y ), r(x, Z) a r(y, Z) a otestujte hypotézy, že mezi dvojicemi proměnných je statisticky významná závislost. 11