STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

Podobné dokumenty
1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Náhodný vektor a jeho charakteristiky

Testování hypotéz o parametrech regresního modelu

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Testování hypotéz o parametrech regresního modelu

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

10. N á h o d n ý v e k t o r

Téma 22. Ondřej Nývlt

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

MATEMATICKÁ STATISTIKA - XP01MST

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Statistika II. Jiří Neubauer

Poznámky k předmětu Aplikovaná statistika, 4. téma

Kontingenční tabulky, korelační koeficienty

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

INDUKTIVNÍ STATISTIKA

KGG/STG Statistika pro geografy

Statistická analýza jednorozměrných dat

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Poznámky k předmětu Aplikovaná statistika, 4. téma

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Regresní a korelační analýza

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

PRAVDĚPODOBNOST A STATISTIKA

NÁHODNÝ VEKTOR. 4. cvičení

12. cvičení z PST. 20. prosince 2017

6. Lineární regresní modely

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Testování statistických hypotéz

Vícerozměrná rozdělení

Bodové a intervalové odhady parametrů v regresním modelu

Kontingenční tabulky, korelační koeficienty

I. D i s k r é t n í r o z d ě l e n í

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Statistika (KMI/PSTAT)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

p(x) = P (X = x), x R,

Regresní analýza 1. Regresní analýza

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Markovské metody pro modelování pravděpodobnosti

Chyby měření 210DPSM

Pravděpodobnost a aplikovaná statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Korelační a regresní analýza

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

7. Rozdělení pravděpodobnosti ve statistice

Charakterizace rozdělení

Výběrové charakteristiky a jejich rozdělení

1 Rozptyl a kovariance

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Regresní a korelační analýza

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

y = 0, ,19716x.

Příklady ke čtvrtému testu - Pravděpodobnost

Mnohorozměrná statistická data

4. Aplikace matematiky v ekonomii

Regresní a korelační analýza

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Normální rozložení a odvozená rozložení

Mnohorozměrná statistická data

Regresní a korelační analýza

Aplikovaná statistika v R - cvičení 2

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

PRAVDĚPODOBNOST A STATISTIKA

KORELACE. Komentované řešení pomocí programu Statistica

You created this PDF from an application that is not licensed to print to novapdf printer (

Normální (Gaussovo) rozdělení

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Technická univerzita v Liberci

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Jana Vránová, 3. lékařská fakulta UK

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Normální (Gaussovo) rozdělení

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Plánování experimentu

Lineární regrese. Komentované řešení pomocí MS Excel

Matematika pro chemické inženýry

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Pravděpodobnost a statistika

Náhodné (statistické) chyby přímých měření

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Transkript:

STATISTICKÁ VAZBA Obsah 1 Korelační analýza 1 1.1 Statistická vazba.................................... 1 1.2 Motivační příklady................................... 1 1.3 Sdružená distribuční funkce a nezávislost náhodných veličin............. 2 1.4 Charakteristiky statistické vazby dvou náhodných veličin............... 4 1.5 Varianční a korelační matice.............................. 5 1.6 Ověřování nezávislosti................................. 6 1.7 Příklad využití korelační analýzy............................ 7 1.8 Výběrová varianční matice............................... 7 Literatura 9 Příklady k procvičení 10 1 Korelační analýza 1.1 Statistická vazba V praktických situacích je velmi častá úloha rozhodnout, jaký je vzájemný vztah dvou (nebo i více náhodných veličin), mluvíme o tom, jaká je statistická vazba mezi těmito náhodnými veličinami. Pro popis intenzity statistické vazby mezi náhodnými veličinami a pro její číslené vyjádření se ve statistice používají metody korelační analýzy, pro analytický popis této vazby se používají metody regresní analýzy. 1.2 Motivační příklady Základní úlohu regresní a korelační analýzy lze jednoduše demonstrovat na následujících dvou příkladech. 1. Na obrázku 1 a) je graficky znázorněn růst cen ve městě Taiwan v období 1940 1946. Nezávislá proměnná X je příslušný rok sledování, závislá proměnná (regresor) Y je index popisující nárůst ceny. Je vidět, že uvedené body sledují přibližně lineární trend (s jedním odlehlým bodem v roce 1943), který je v obrázku znázorněný přímkou a dále, že variabilita jednotlivých bodů kolem této přímky je značná. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326 PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.

2. Na obrázku 1 b) je znázorněna závislost brzdné dráhy automobilu Y (měřená v metrech) na jeho rychlosti X (měřené v km/hod). Data byla získána při testování kvality nově vyrobených pneumatik. Z tohoto obrázku je vidět, že brzdná dráha sleduje nelineární trend a variabilita naměřených hodnot kolem proložené křivky je malá. Zjednodušeně řečeno, z obou obrázků jsou dobře patrné cíle korelační analýzy, tedy popis velikosti statistické vazby mezi X a Y, a cíle regresní analýzy, tedy popis průběhu této stochastické vazby matematickou funkcí. Obrázek 1: a) Index růstu ceny ve městě Taiwan v období 1940 1946, b) Závislost brzdné dráhy automobilu na jeho rychlosti 1.3 Sdružená distribuční funkce a nezávislost náhodných veličin Při popisu statistické vazby mezi náhodnými veličinami X a Y mohou nastat dvě krajní situace. V prvním případě může být vazba mezi proměnnými X a Y deterministická, tedy pevně daná nějakým formálním předpisem. Tak je tomu třeba při studiu fyzikálních zákonitostí, kdy např. ujetou dráhu Y lze přesně vyjádřit jako lineární funkci času X (za daných přesně specifikovaných podmínek). Při experimentálním ověřování této skutečnosti, již mohou být měřené veličiny ovlivněny náhodnou chybou měření a graficky znázorněné naměřené hodnoty času X a ujeté dráhy Y již potom kolísají v úzkých mezích kolem přímky. Narůstající kolísání hodnot proměnné Y v závislosti na hodnotách proměnné X bylo znázorněno na obrázku 1 b), kdy šlo o popis závislosti brzdné dráhy na rychlosti vozidla. Ještě větší kolísání, tedy ještě menší statistickou vazbu mezi veličinami X a Y lze pozorovat na obrázku 1 a), kdy index růstu cen Y poměrně volně lineárně závisí na čase X. V druhém krajním případě mohou být obě sledovaně veličiny X a Y nezávislé. Tak by tomu mohlo třeba být při sledování rychlosti vozidla Y a hmotností jeho řidiče X. Ověřování nezávislosti náhodných veličin je velmi častou praktickou úlohou, proto pojem nezávislosti nejdříve formálně zavedeme. Budeme uvažovat dvě náhodné veličiny X a Y a pomocí nich zavedeme dva náhodné jevy X x a Y y. Když bude pravděpodobnost společného nastoupení obou těchto jevů rovna součinu jejich pravděpodobností pro libovolné reálné hodnoty x a y, budeme říkat, že náhodné veličiny X a Y jsou nezávislé. Jednodušeji lze nezávislost náhodných veličin zavést pomocí tzv. sdružené distribuční funkce F (x, y), která je rovna pravděpodobnosti společného nastoupení jevů X x a Y y. Tedy F (x, y) = Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326

Obrázek 2: Hustota dvourozměrného normálního rozdělení N 2 (µ X, µ Y, σx 2, σ2 Y, ρ) pro různé hodnoty parametrů µ X, µ Y, σx 2, σ2 Y a ρ P (X x Y y). Obecně lze říci, že sdružená distribuční funkce F (x, y) vyčerpávajícím způsobem popisuje pravděpodobnostní chování obou náhodných veličin X a Y. Některé dvojice náhodných veličin mají sdruženou distribuční funkce popsanou přesnou matematickou funkcí podobně, jako tomu bylo u distribučních funkcí jednotlivých náhodných veličin. Příkladem takové distribuční funkce je distribuční funkce dvourozměrného normálního rozdělení. Toto rozdělení závisí na středních hodnotách EX = µ X, EY = µ Y, rozptylech DX = σ 2 X, DY = σ2 Y a na parametru ρ, jeho význam bude vysvětlen v následujícím odstavci. Toto rozdělení je zobecněním dříve zavedeného jednorozměrného normálního rozdělení, budeme jej značit N 2 (µ X, µ Y, σ 2 X, σ2 Y, ρ). Grafem jeho hustoty je známá zvonovitá funkce a je znázorněna na obrázku 2 pro různé hodnoty parametrů µ X, µ Y, σ 2 X, σ2 Y a ρ. Po zavedení sdružené distribuční funkce lze snadno charakterizovat nezávislost náhodných veličin X a Y. Náhodné veličiny X a Y jsou nezávislé, právě když mezi distribuční funkcí sdruženou a distribučními funkcemi F X (x) náhodné veličiny X a F Y (y) náhodné veličiny Y (tzv. marginálními distribučními funkcemi) platí multiplikativní vztah F (x, y) = F X (x) F Y (y) pro libovolné hodnoty proměnných x a y. Podobně lze nezávislost charakterizovat pomocí sdružené hustoty ve spojitém případě nebo pomocí sdružené pravděpodobnostní funkce v diskrétním případě. V diskrétním případě, kdy obor hodnot náhodné veličiny X je nejvýše spočetná množina M 1 a obor hodnot náhodné veličiny Y je nejvýše spočetná množina M 2 zavádíme sdruženou pravděpodobnostní funkci dvojice X a Y vztahem p(x, y) = P (X = x Y = y) pro (x, y) M 1 M 2. Jsou-li potom 3

p 1 (x) = P (X = x) a p 2 (y) = P (Y = y) pravděpodobnostní funkce veličin X a Y, lze jednoduše nezávislost diskrétních náhodných veličin X a Y charakterizovat vztahem p(x, y) = p 1 (x)p 2 (y) pro (x, y) M 1 M 2. Analogicky ve spojitém případě, lze pravděpodobnostní chování náhodné veličiny popsat hustotou. Sdružené distribuční funkci F (x, y) pak ve spojitém případě odpovídá hustota f(x, y), kterou lze stanovit podle vzorce f(x, y) = 2 F (x,y) pro všechna reálná x a y, kde uvedená derivace existuje. x y Je-li f 1 (x) hustota náhodné veličiny X a f 2 (y) hustota náhodné veličiny Y, lze jednoduše nezávislost spojitých náhodných veličin X a Y charakterizovat vztahem f(x, y) = f 1 (x)f 2 (y) pro libovolné reálné hodnoty x a y. Při popisu skupinové nezávislosti komplexu k náhodných veličin X 1, X 2,..., X k se postupuje podobně, zavede se sdružená distribuční funkce F (x 1, x 2,..., x k ) = P (X 1 x 1 X 2 x 2 X k x k ) náhodných veličin X 1, X 2,..., X k. Pak se náhodné veličiny X 1, X 2,..., X k považují za nezávislé, když platí, že F (x 1, x 2,..., x k ) = F 1 (x 1 ) F 2 (x 2 ) F k (x k ), kde distribuční funkce na pravé straně jsou marginální distribuční funkce náhodných veličin X 1, X 2,..., X k. V této souvislosti se k-tice náhodných veličin (X 1, X 2,..., X k ) nazývá náhodným vektorem a značí se X. Náhodné vektory budeme dále v tomto textu zapisovat do sloupce, tedy budeme psát X 1 X 2 X = (X 1, X 2,..., X k ) =., přičemž (X 1, X 2,..., X k ) značí transpozici vektoru (X 1, X 2,..., X k ). Analogicky lze nezávislost diskrétních (nebo spojitých) náhodných veličin (X 1, X 2,..., X k ) charakterizovat pomocí sdružené pravděpodobnostní funkce (nebo sdružené hustoty). 1.4 Charakteristiky statistické vazby dvou náhodných veličin Nejdříve se budeme věnovat statistické vazbě mezi dvěma náhodnými veličinami X a Y. Popíšeme ji pomocí kovariance a korelačního koeficientu. Kovarianci náhodných veličin X a Y označíme cov(x, Y ) a zavedeme ji pomocí střední hodnoty součinu odchylek obou náhodných veličin od jejich střední hodnoty. Tedy vztahem cov(x, Y ) = E(X EX)(Y EY ) = E(X µ X )(Y µ Y ). Kovariance cov(x, Y ) náhodných veličin nabývá hodnot mezi σ X σ Y a σ X σ Y. Pro náhodnou veličinu X platí, že cov(x, X) = DX. Když jsou náhodné veličiny X a Y nezávislé, je jejich kovariance rovna nule. V případě, že víme, že sdružené rozdělení náhodných veličin X a Y je normální, je cov(x, Y ) rovna nule, právě když jsou náhodné veličiny X a Y nezávislé. Pomocí kovariance potom zavedeme korelační koeficient náhodných veličin X a Y, někdy se nazývá Pearsonův korelační koeficient a značí se ρ nebo detailněji ρ(x, Y ). Je definován vztahem X k ρ(x, Y ) = cov(x, Y ) σ X σ Y. 4

Korelační koeficient je snad nejčastěji užívanou mírou statistické vazby mezi náhodnými veličinami X a Y. Jeho výhodou oproti kovarianci je, že nabývá hodnot mezi 1 a 1. Když nabývá hodnoty 1, je mezi X a Y přímý lineární vztah, když nabývá hodnoty 1, je mezi X a Y nepřímý lineární vztah. V obou těchto případech lze průběh statistické vazby mezi Y a X popsat přímkou a pozorované hodnoty dvojice X a Y leží na této přímce. Tedy v této situaci je mezi Y a X deterministický lineární vztah. V případě, že hodnota korelačního koeficientu je rovna nule, říkáme, že náhodné veličiny X a Y jsou nekorelované. Pro náhodnou veličinu X platí, že korelační koeficient ρ(x, X) = 1. V případě, že sdružené rozdělení náhodných veličin X a Y je normální N 2 (µ X, µ Y, σx 2, σ2 Y, ρ), je parametr ρ roven korelačnímu koeficientu ρ(x, Y ). Dále v tomto případě platí, že korelační koeficient ρ(x, Y ) = 0, právě když jsou obě veličiny X a Y nezávislé. Velikost korelačního koeficientu určuje, jak silná je statistická vazba mezi veličinami X a Y. Čím je absolutní hodnota korelačního koeficientu blíže 1, tím je sledovaná vazba mezi X a Y větší. Druhá mocnina korelačního koeficientu se nazývá koeficientem determinace. Jeho hodnota vyjádřená v procentech, budeme ji značit d, udává v procentech variabilitu proměnné Y, kterou lze vysvětlit variabilitou proměnné X. Tedy d = 100ρ 2. Celkově je možné říci, že kovariance a korelační koeficient jsou kvalitní míry statistické vazby mezi náhodnými veličinami X a Y v situaci, kdy lze tuto vazbu charakterizovat jako lineární. 1.5 Varianční a korelační matice Popis statistické vazby mezi k náhodnými veličinami X 1, X 2,..., X k se často jednoduše provádí pomocí popisu statistické vazby mezi dvojicemi proměnných, tedy zavedou se kovariance a korelační koeficienty mezi veličinami X i a X j pro všechny možné dvojice indexů i a j a ty se pak uspořádají do matice. Matici kovariancí a rozptylů DX 1 cov(x 1, X 2 )... cov(x 1, X k ) cov(x 2, X 1 ) DX 2... cov(x 2, X k ) V ar(x) =...... cov(x k, X 1 ) cov(x k, X 2 )... DX k pak nazýváme varianční maticí náhodného vektoru X = (X 1, X 2,..., X k ). Matici korelačních koeficientů 1 ρ(x 1, X 2 )... ρ(x 1, X k ) ρ(x 2, X 1 ) 1... ρ(x 2, X k ) Cor(X) =...... ρ(x k, X 1 ) ρ(x k, X 2 )... 1 pak nazýváme korelační maticí náhodného vektoru X = (X 1, X 2,..., X k ). Varianční matice popisuje pravděpodobnostní chování náhodného vektoru podobně, jako rozptyl popisuje pravděpodobnostní chování náhodné veličiny. Korelační matice (a podobně varianční matice) pak popisuje strukturu statistických vazeb mezi studovanými náhodnými veličinami. Pro popis statistické vazby náhodné veličiny Y na náhodném vektoru X lze zavést koeficient mnohonásobné korelace ρ(y, X). Je to vlastně korelační koeficient mezi náhodnou veličinou Y a 5

její nejlepší lineární predikcí získanou pomocí náhodného vektoru X. Konečně pro popis statistické vazby mezi náhodnými veličinami Y a Z při současné eliminaci vlivu, který může být způsobem dalšími veličinami X 1, X 2,..., X k se zavádějí tzv. parciální korelační koeficienty ρ(y, Z X). Kromě toho existuje řada dalších měr statistické vazby (např. Spearmanův korelační koeficient, Kendallův korelační koeficient apod.), které se užívají v závislosti na tom, s jakým typem náhodných veličin se pracuje. Bude o nich pojednáno později. 1.6 Ověřování nezávislosti Budeme předpokládat, že sledujeme dvě náhodné veličiny X a Y a cílem je ověřit jejich nezávislost. K tomu pořídíme datový soubor, kdy budeme na n nezávislých statistických jednotkách pozorovat hodnoty obou znaků. V matematické terminologii to znamená, že provedeme náhodný výběr rozsahu n ze sdruženého rozdělení náhodných veličin X a Y. Označíme x i a y i pozorování dvojice X a Y zjištěné na i-té statistické jednotce, i = 1, 2,..., n. Z těchto hodnot potom vypočteme výběrový průměr x znaku X a výběrový průměr ȳ znaku Y podle vzorců x = 1 n n x i a ȳ = 1 n i=1 n y i. i=1 Lze ukázat, že platí E x = µ x, E ȳ = µ y. To znamená, že hodnoty průměrů kolísají kolem neznámých odhadovaných středních hodnot µ x, µ y a takové odhady se nazývají nestranné nebo nevychýlené. Dále stanovíme výběrové rozptyly s x a s y podle vzorců s x = 1 n 1 n i=1 (x i x) 2 a s y = 1 n 1 n (y i ȳ) 2. Podobně jako pro výběrové průměry platí i pro výběrové rozptyly s x a s y, že jsou nevychýlenými odhady rozptylů σ 2 X a σ2 Y. Konečně vypočteme výběrovou kovarianci s xy podle vzorce s xy = 1 n 1 i=1 n (x i x)(y i ȳ). i=1 Uvedený odhad je opět nevychýlený. Konečně stanovíme výběrový korelační koeficient r xy podle vzorce r xy = s xy s x s y. (1) Tento odhad již není nevychýlený, ale pro velké hodnoty rozsahu výběru n je přibližně nevychýlený, to znamená, že jeho hodnoty kolísají kolem neznámé hodnoty korelačního koeficientu ρ(x, Y ). Ověřit nezávislost znaků X a Y lze provést za předpokladu, že sdružené rozdělení náhodných veličin X a Y je normální N 2 (µ X, µ Y, σx 2, σ2 Y, ρ). Pak je nezávislost ekvivalentní nekorelovanosti a lze ji ověřit statistickým testem, který vychází z testovací statistiky t = r xy 1 r 2 xy n 2. 6

Když platí, že t > t 1 α (n 2), zamítáme na hladině významnosti α hypotézu nezávislosti náhodných 2 veličin X a Y a závislost X a Y považujeme za statisticky prokázanou na hladině významnosti α. Symbolem t 1 α (n 2) rozumíme (1 α )-kvantil Studentova t-rozdělení o n 2 stupních volnosti (pro 2 2 stanovení kvantilů lze použít prakticky každý dostupný statistický software např. Excel, Statistica, MATLAB apod.). 1.7 Příklad využití korelační analýzy Při sledování provozu firmy po zavedení nové výrobní linky byl po dobu 7 měsíců sledován počet hodin provozu této linky proměnná X a zároveň měsíční náklady na její údržbu v tisících Kč proměnná Y. Výsledky jsou zaznamenány v tabulce 1. Cílem je zjistit, jak počet hodin provozu linky koreluje s náklady na její provoz a otestovat, zda statistická vazba mezi těmito proměnnými je významná. x i 275 350 250 325 375 400 300 y i 149 170 140 164 192 200 165 Tabulka 1: Počet hodin provozu výrobní linky (proměnná X) v závislosti na měsíčních nákladech na její údržbu (proměnná Y ) Řešení: Užitím výše uvedených vzorců snadno zjistíme, že x = 325, ȳ = 168,571, s x = 54,006, s y = 21,493, r xy = 0,973 a d = 94,6. Za předpokladu normality lze provést test nezávislosti obou veličin. Zvolíme hladinu významnosti α = 0,05, vypočteme t = 9,387 a ve statistických tabulkách najdeme kvantil t 1 α (n 2) = t 0,975(5) = 2,571 Studentova t-rozdělení o n 2 = 5 stupních volnosti. 2 Protože t > t 1 α (n 2), zamítáme na hladině významnosti α = 0,05 hypotézu o nezávislosti obou 2 veličin X a Y. Zároveň lze říci, že náklady na údržbu linky lze z d = 94,6 procent vysvětlit dobou provozu linky. Zbylé procento odpovídá jiným nekontrolovaným vlivům. 1.8 Výběrová varianční matice Na závěr tohoto odstavce ještě zmíníme výpočet výběrové varianční a korelační matice náhodného vektoru X = (X 1, X 2,..., X k ). Podobně jako v případě dvou náhodných veličin, budeme předpokládat, že je na n statistických jednotkách pozorován vektor X. Výsledkem těchto pozorováni je potom datová matice x 11... x 1k D =..... x n1... x nk V jejím i-tém řádku je pozorování vektoru X, na i-té statistické jednotce a v j-tém sloupci jsou pozorování proměnné X j na všech statistických jednotkách. Výběrová varianční matice je matice V ar(x), kde kovariance cov(x i, X j ) jsou nahrazeny výběrovými protějšky s ij. Výběrovou varianční. 7

matici budeme značit S a lze ji stanovit ze vzorce S = 1 n 1 D ( I 1 ) n E D, kde I je jednotková matice typu n n a E je matice samých jedniček typu n n. Podobně výběrovou korelační matici označíme R a lze ji stanovit podle vzorce R = Diag 1 (s 1, s 2,..., s k ) S Diag 1 (s 1, s 2,..., s k ), kde Diag 1 (s 1, s 2,..., s k ) značí inverzní matici k diagonální matici Diag(s 1, s 2,..., s k ) s prvky s i = s ii, i = 1, 2..., n, na hlavní diagonále. 8

Literatura Základní MANN, P.S. Introductory Statistics. 6th edition. Hoboken: Wiley, 2007. ISBN 978-0-471-75530-2. MOUČKA, J., RÁDL, P. Matematika pro studenty ekonomie. 1. vyd. Grada 2010. ISBN 978-80- 247-3260-2. NEUBAUER, J., SEDLAČÍK, M., KŘÍŽ, O. Základy statistiky Aplikace v technických a ekonomických oborech. Grada 2012.ISBN: 978-80-247-4273-1. ŘEZANKOVÁ, H. Analýza dat z dotazníkových šetření. 2. vydání, Professional Publishing, 2010. ISBN: 9788074310195. Doporučená AGRESTI, A. Categorical Data Analysis. Second Edition. Wiley 2002. ISBN: 0-471-36093-7. ANDĚL, J. Statisticke metody. 3. vydání. Praha: Matfyzpress, 2003. ISBN 80-86732-08-8. ANDĚL, J. Základy matematické statistiky. 2. vyd. Praha: Matfyzpress, 2007, 358 s. ISBN 978-80-7378-001-2. VÁGNER, M. Integrální počet funkcí jedné proměnné. 1. vydání. Brno: UO, 2005,126 s. ISBN 80-7231-025-9. VÁGNER, M., KAŠTÁNKOVÁ, V. Posloupnosti a řady. 1. vydání. Brno: UO, 2006. ISBN 80-7231-131-X. 9

Příklady k procvičení Příklad 1.1 Náhodné veličiny X a Y mají sdruženou hustotu f(x, y) = x + y pro 0 < x < 1, 0 < y < 1, jinak je tato hustota rovna 0. Stanovte korelační koeficient ϱ(x, Y ). Příklad 1.2 Zjišt ovalo se kolik mg kyseliny mléčné je ve 100 ml krve u matek prvorodiček (hodnoty X i ) a u jejich novorozenců (hodnoty Y i ). Byly získány výsledky uvedené v následující tabulce: X i 40 64 34 15 57 45 Y i 33 46 23 12 56 40 Vypočtěte výběrový korelační koeficient a rozhodněte, zda je mezi množstvím kyseliny mléčné v krvi matek a v krvi jejich novorozenců statisticky významný rozdíl. Příklad 1.3 Zjišt ovalo se jak závisí ve vybraných evropských zemích spotřeba alkoholu (proměnná X)a úmrtnost na cirózu jater (počet zemřelých na tuto diagnózu na 100 000 obyvatel - proměnná Y ). Údaje jsou převzaty z monografie Anděl: Statistické metody. Byly získány výsledky uvedené v následující tabulce: Země FIN NOR IRL NLD SWE GBR BEL AUT DEU ITA FRA X 3,9 4,2 5,6 5,7 6,6 7,2 10,8 10,9 12,3 15,7 24,7 Y ) 3,6 4,3 3,4 3,7 7,2 3,0 12,3 7,0 23,7 23,6 46,1 Údaje jsou převzaty z monografie Anděl: Statistické metody. Vypočtěte výběrový korelační koeficient a rozhodněte, zda je mezi množstvím spotřeby alkoholu a úmrtností na cirózu jater statisticky významný rozdíl. Příklad 1.4 V tabulce níže jsou uvedena data podle monografie Anděl: Statistické metody o počtu úmrtí v Londýně (hodnoty proměnné Y ) od 1. do 15. 12. 1952, kdy Londýn postihla mimořádně silná mlha. Dále jsou uvedeny hodnoty proměnné X, která představuje průměrné znečištění vzduchu v County Hall uváděné v mg/m 3 a hodnoty proměnné Z, která představuje průměrný obsah oxidu siřičitého (počet částic na jeden milion). Den Y i x i z i Den Y i x i z i 1 112 0,30 0,09 9 430 1,22 0,47 2 140 0,49 0,16 10 274 1,22 0,47 3 143 0,61 0,22 11 255 0,32 0,22 4 120 0,49 0,14 12 236 0,29 0,23 5 196 2,64 0,75 13 256 0,50 0,26 6 294 3,45 0,86 14 222 0,32 0,16 7 513 4,46 1,34 15 213 0,32 0,16 8 518 4,46 1,34 10

Stanovte korelační koeficienty r(x, Y ), r(x, Z) a r(y, Z) a otestujte hypotézy, že mezi dvojicemi proměnných je statisticky významná závislost. 11