Ing. Michal Dorda, Ph.D. 1
Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen Průzkum spokojenosti cestujících s MHD Hodnocení ceny jízdného Hodnocení kvality cestování 1 1 1 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 3 4 4 3 4 3 4 4 4 4 4 4 Ing. Michal Dorda, Ph.D.
Stanovte: 1. Sdruženou pravděpodobnostní funkci.. Marginální pravděpodobnostní funkce. 3. Určete, zda jsou složky náhodného vektoru nezávislé. 4. Určete střední hodnoty a rozptyly jednotlivých složek. 5. Určete kovarianční matici náhodného vektoru. 6. Určete jednoduchý korelační koeficient. 7. Určete podmíněnou pravděpodobnost PX 3 Y 3. Ing. Michal Dorda, Ph.D. 3
Zaveďme složky náhodného vektoru: X hodnocení ceny jízdného, Y hodnocení kvality cestování. X Tabulka sdružených a marginálních četností Y 1 3 4 1 1 1 1 0 3 0 1 0 3 3 0 5 9 4 0 0 3 5 1 4 10 5 0 Ing. Michal Dorda, Ph.D. 4
X P Y (y) Korelační tabulka Y 1 3 4 P X (x) 1 0,05 0,05 0,05 0 0,15 0 0,05 0,1 0 0,15 3 0 0,1 0,5 0,1 0,45 4 0 0 0,1 0,15 0,5 0,05 0, 0,5 0,5 1 Např. P P X 1, Y 1 0,05, PX 3, Y 3 X 1 0,15, P Y 0, X Y 0,5 Ing. Michal Dorda, Ph.D. 5
Aby byly složky X a Y nezávislé, pak musí platit (v případě diskrétního náhodného vektoru): P X x, Y y P x P y i j X i Y j. Tento předpoklad splněn není, např. PX 1, Y 1 0,05, PX X 1 PY Y 1 0,15 PX 1, Y 1 P X 1 P Y 1. X Y 0,05 0,0075 Ing. Michal Dorda, Ph.D. 6
Stanovení střední hodnoty a rozptylu složky X: EX EX 4 i1 4 i1 DX EX x i x P i X P X X X x i x i 1 0,15 0,15 30,45 40,5,8, 1 0,15 EX 8,8,8 0,96. 0,15 3 0,45 4 0,5 8,8, Ing. Michal Dorda, Ph.D. 7
Stanovení střední hodnoty a rozptylu složky Y: EY EY 4 j1 4 j1 DY EY y j y P j Y P Y Y Y y j y j 1 0,05 0, 30,5 40,5,95, 1 0,05 0, 3 EY 9,35,95 0,6475. 0,5 4 0,5 9,35, Ing. Michal Dorda, Ph.D. 8
DX Cov X, Y Kovarianční matice má tvar. Cov X, Y DY Cov 4 X, Y x, i EX y j EY P X xi Y y j i1 4 j1 1,8 1,950,05 1,8,950,05 1,8 3,950,05,8,950,05,8 3,950,1 3,8,950,1 3,8 3,950,5 3,8 4,950,1 4,8 3,950,1 4,8 4,95 0,15 0,49. Ing. Michal Dorda, Ph.D. 9
Výpočet kovariance můžeme rovněž provést podle vztahu: Cov E X, Y EX Y EX EY 8,75,8,95 0,49. X Y 110,05 10,05 130,05 0,05 30,1 30,1 330,5 340,1 430,1 440,15 8,75. Vidíme, že výsledky se shodují. Ing. Michal Dorda, Ph.D. 10
Výpočet kovariance v Excelu lze provést pomocí funkce COVAR. Kovarianční matice má tedy tvar 0,96 0,49 0,49 0,6475. Ing. Michal Dorda, Ph.D. 11
Jednoduchý korelační koeficient je definován vztahem: CovX, Y. X, Y pro DX, DY DX DY Po dosazení dostaneme: 0,49 X, Y 0,96 0,6475 0,6. 0 Ing. Michal Dorda, Ph.D. 1
Výpočet jednoduchého korelačního koeficientu lze v Excelu provést pomocí funkce CORREL. Podmíněná pravděpodobnost pro diskrétní náhodný vektor je definována: P X x, Y y P X xy y pro PY Y y 0. PY Y y P X 3, Y 3 0,5 Tedy P X 3Y 3 0,5. P Y 3 0,5 Y Ing. Michal Dorda, Ph.D. 13
Př. : V kontingenční tabulce jsou uvedeny výsledky celkového průzkumu spokojenosti cestujících s MHD. Ověřte na hladině významnosti α = 0,05 hypotézu, že hodnocení ceny jízdného a kvality cestování jsou nezávislé proměnné. Dále spočítejte koeficienty kontingence. Ing. Michal Dorda, Ph.D. 14
Označení: proměnná X hodnocení ceny jízdného, proměnná Y hodnocení kvality cestování. X Kombinační tabulka Y 1 3 4 1 1 9 19 11 60 18 18 16 8 60 3 10 16 9 9 44 4 10 8 1 6 36 59 51 56 34 00 Ing. Michal Dorda, Ph.D. 15
1. Formulace nulové a alternativní hypotézy: H 0 : Hodnocení ceny jízdného a hodnocení kvality cestování jsou nezávislé proměnné. H 1 : Hodnocení ceny jízdného závisí a hodnocení kvality cestování jsou závislé proměnné.. Testové kritérium je ve tvaru: K k m i1 j1 n ij n n * ij * ij. k1 m1 Ing. Michal Dorda, Ph.D. 16
3. Sestavení kritického oboru a oboru přijetí: x krit 1 ; k1 m1 CHIINV ; k 1 m 1. V našem případě 0,05; k 4; m 4, tedy: x krit CHIINV 0,05; 4 1 4 1 CHIINV0,05;9 16,9. Ing. Michal Dorda, Ph.D. 17
4. Výpočet pozorované hodnoty testové statistiky x obs : Výpočet teoretických četností n n n * 11 * 1 * 13 n n n 1 1 1 n n n n n n 1 3 60 59 17,7 00 60 51 15,3 00 60 56 16,8 00 n * ij n i n n j. Ing. Michal Dorda, Ph.D. 18
X Tabulka teoretických četností Y 1 3 4 1 17,7 15,3 16,8 10, 60 17,7 15,3 16,8 10, 60 3 1,98 11, 1,3 7,48 44 4 10,6 9,18 10,08 6,1 36 59 51 56 34 00 Jelikož jsou všechny teoretické četnosti větší než 5, máme splněny předpoklady pro použití testu. Ing. Michal Dorda, Ph.D. 19
x obs * nij nij 117,7 9 15,3 19 16,8 1110, 18 17,7 m i1 j1 16,8 n 6 6,1 6,1 n * ij 9,03. 10, 17,7 17,7 15,3 Ing. Michal Dorda, Ph.D. 0
X Y 1 3 4 1 0,61554,594118 0,88095 0,06745 3,5601 0,005085 0,476471 0,038095 0,47451 0,99416 3 0,68416,036399 0,894675 0,308877 3,9411 4 0,036196 0,151678 0,365714 0,00353 0,555941 1,340695 5,58665 1,58658 0,848485 9,03445 x obs Ing. Michal Dorda, Ph.D. 1
5. Formulace závěru testu: Jelikož platí, že x obs < x krit, nezamítáme nulovou hypotézu, tedy hodnocení ceny jízdného nezávisí na hodnocení kvality cestování. Ing. Michal Dorda, Ph.D.
Jelikož máme čtvercovou kontingenční tabulku, pro koeficient kontingence dostáváme: CC K K n 9,03 9,03 00 0,1. Pro Cramerův koeficient dostaneme: V n K 9,03 min k, m1 00 min 4,4 1 0,1. Ing. Michal Dorda, Ph.D. 3
Př. 3: Pro potřeby výpočtu propustnosti traťového úseku byla provedena analýza platného grafikonu vlakové dopravy. V rámci analýzy byly získány informace o jízdních dobách vlaků a jejich pořadí. Tyto informace jsou uvedeny v tabulce. Ing. Michal Dorda, Ph.D. 4
Pořadí vlaku Jízdní doba Pořadí vlaku Jízdní doba Pořadí vlaku Jízdní doba Pořadí vlaku Jízdní doba 1 8 1 5 41 5 61 1 1 5 4 8 6 5 3 1 3 1 43 5 63 8 4 8 4 5 44 1 64 8 5 1 5 1 45 8 65 1 6 5 6 5 46 8 66 8 7 1 7 5 47 5 67 8 8 1 8 8 48 5 68 5 9 5 9 1 49 8 69 1 10 5 30 5 50 8 70 5 11 5 31 5 51 5 71 8 1 5 3 5 5 5 7 1 13 8 33 8 53 8 73 8 14 8 34 5 54 5 74 1 15 5 35 8 55 5 75 5 16 1 36 5 56 5 76 8 17 1 37 5 57 8 77 5 18 5 38 8 58 8 78 8 19 1 39 1 59 5 79 8 0 5 40 5 60 5 80 5 Ing. Michal Dorda, Ph.D. 5
Na základě získaných dat otestujte, zda lze považovat sledy různých druhů vlaků (lišících se v jízdních dobách) za náhodné. Ing. Michal Dorda, Ph.D. 6
Z tabulky plyne, že v grafikonu jsou vedeny trasy 3 vlaků hodnoty jízdních dob činí 5, 8 a 1 minut. Označme tyto vlaky jako rychlík (jízdní doba 5 minut), osobní (jízdní doba 8 minut) a nákladní (jízdní doba 1 minut). Ing. Michal Dorda, Ph.D. 7
V další fázi musíme získat kontingenční tabulku, pomocí které znázorníme četnosti jednotlivých sledů (rychlík rychlík, rychlík osobní, ). Budeme-li pracovat v Excelu, lze kontingenční tabulku získat poměrně snadno. Nejdříve si vytvoříme pomocnou tabulku jednotlivých sledů. Ing. Michal Dorda, Ph.D. 8
Pořadí vlaku Jízdní doba 1 8 1 3 1 4 8 5 1 6 5 7 1 8 1 9 5 10 5 11 5 1. vlak. vlak 8 1 1 1 1 8 8 1 1 5 5 1 1 1 1 5 5 5 Levá tabulka představuje výřez tabulky s jednotlivými vlaky seřazenými dle jejich pořadí v grafikonu a jejich jízdní doby. Pravá tabulka potom představuje výřez tabulky sledů jednotlivých druhů vlaků. Šipkami je potom naznačen způsob, jakým pravou tabulku získáme. V prvním řádku pravé tabulky je sled osobní nákladní (1. vlak a. vlak dle pořadí z levé tabulky), v druhém řádku je sled nákladní nákladní (. a 3. vlak dle pořadí z levé tabulky) atd. Poslední řádek pravé tabulky (není znázorněno) bude obsahovat sled rychlík osobní (80. a 1. vlak dle pořadí z levé tabulky). Ing. Michal Dorda, Ph.D. 9
Nyní můžeme vytvořit kontingenční tabulku. Pokud jste nikdy nepracovali s kontingenční tabulkou, je vhodné se podívat do nápovědy. Ing. Michal Dorda, Ph.D. 30
Ing. Michal Dorda, Ph.D. 31
Získali jsme kontingenční tabulku, tedy tabulku sdružených a marginálních četností jednotlivých sledů vlaků. 1. vlak /. vlak Rychlík Osobní Nákladní Součet Rychlík 15 14 8 37 Osobní 11 7 7 5 Nákladní 11 4 3 18 Součet 37 5 18 80 Ing. Michal Dorda, Ph.D. 3
Nyní můžeme přistoupit k vlastnímu testování. Definujme si obě hypotézy: H 0 : Sledy jednotlivých druhů vlaků jsou v grafikonu vzájemně nezávislé. H 1 : Sledy jednotlivých druhů vlaků jsou v grafikonu vzájemně závislé. Ing. Michal Dorda, Ph.D. 33
Abychom mohli stanovit hodnotu testového kritéria, musíme vypočítat teoretické četnosti n * i n j podle nám již známého vztahu n. 1. vlak /. vlak Rychlík Osobní Nákladní Součet Rychlík 17,11 11,56 8,33 37,00 Osobní 11,56 7,81 5,63 5,00 Nákladní 8,33 5,63 4,05 18,00 Součet 37,00 5,00 18,00 80,00 ij n Ing. Michal Dorda, Ph.D. 34
Z tabulky teoretických četností vidíme, že 8 teoretických četností je větších než 5, 1 četnost je menší než 5, ale větší než. Máme tedy splněny předpoklady pro použití testu, nemusíme používat korigované testové kritérium (Yatesovu korekci). Ing. Michal Dorda, Ph.D. 35
Známe-li teoretické četnosti, lze přistoupit k výpočtu hodnoty testového kritéria: x obs k m i1 j1 * nij nij. n * ij 1. vlak /. vlak Rychlík Osobní Nákladní Součet Rychlík 0,6 0,51 0,01 0,79 Osobní 0,03 0,08 0,34 0,45 Nákladní 0,86 0,47 0,7 1,60 Součet 1,15 1,07 0,6,84 Ing. Michal Dorda, Ph.D. 36
Výpočtem jsme stanovili, že pozorovaná hodnota testového kritéria je rovna,84. Tuto hodnotu musíme porovnat s kritickou hodnotou testu, pro kterou platí: x krit 1 ; k 1 m1 1 0,05; 31 31 CHIINV (0,05;4) 9,49. Ing. Michal Dorda, Ph.D. 37
Srovnáním obou hodnot zjistíme, že pozorovaná hodnota testového kritéria leží v oboru přijetí (x obs < x krit ), tudíž nezamítáme nulovou hypotézu o nezávislosti sledů jednotlivých druhů vlaků. Ing. Michal Dorda, Ph.D. 38