Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Podobné dokumenty
Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Kontingenční tabulky, korelační koeficienty

12. cvičení z PST. 20. prosince 2017

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Kontingenční tabulky, korelační koeficienty

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Tomáš Karel LS 2012/2013

Vícerozměrná rozdělení

Příklady ke čtvrtému testu - Pravděpodobnost

Statistika II. Jiří Neubauer

KGG/STG Statistika pro geografy

1 Rozptyl a kovariance

NÁHODNÝ VEKTOR. 4. cvičení

Poznámky k předmětu Aplikovaná statistika, 4. téma

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Poznámky k předmětu Aplikovaná statistika, 4. téma

Regresní a korelační analýza

Pravděpodobnost a aplikovaná statistika

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Aproximace binomického rozdělení normálním

Tomáš Karel LS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 7

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

INDUKTIVNÍ STATISTIKA

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Jana Vránová, 3. lékařská fakulta UK

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

= = 2368

Příklad: Test nezávislosti kategoriálních znaků

Náhodný vektor a jeho charakteristiky

10. N á h o d n ý v e k t o r

Regresní a korelační analýza

MATEMATICKÁ STATISTIKA - XP01MST

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

TECHNICKÁ UNIVERZITA V LIBERCI

Testy. Pavel Provinský. 19. listopadu 2013

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Regresní analýza 1. Regresní analýza

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Malé statistické repetitorium Verze s řešením

15. T e s t o v á n í h y p o t é z

Přednáška X. Testování hypotéz o kvantitativních proměnných

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Výběrové charakteristiky a jejich rozdělení

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Testování statistických hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Téma 22. Ondřej Nývlt

Testování hypotéz. 4. přednáška

Testování statistických hypotéz

ADDS cvičení 7. Pavlína Kuráňová

Normální (Gaussovo) rozdělení

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Charakteristika datového souboru

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

15. T e s t o v á n í h y p o t é z

Poznámky k předmětu Aplikovaná statistika, 11. téma

12. prosince n pro n = n = 30 = S X

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Cvičení ze statistiky - 8. Filip Děchtěrenko

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

2 ) 4, Φ 1 (1 0,005)

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Statistické metody uţívané při ověřování platnosti hypotéz

Zápočtová práce STATISTIKA I

AVDAT Klasický lineární model, metoda nejmenších

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Transkript:

Ing. Michal Dorda, Ph.D. 1

Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen Průzkum spokojenosti cestujících s MHD Hodnocení ceny jízdného Hodnocení kvality cestování 1 1 1 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 3 4 4 3 4 3 4 4 4 4 4 4 Ing. Michal Dorda, Ph.D.

Stanovte: 1. Sdruženou pravděpodobnostní funkci.. Marginální pravděpodobnostní funkce. 3. Určete, zda jsou složky náhodného vektoru nezávislé. 4. Určete střední hodnoty a rozptyly jednotlivých složek. 5. Určete kovarianční matici náhodného vektoru. 6. Určete jednoduchý korelační koeficient. 7. Určete podmíněnou pravděpodobnost PX 3 Y 3. Ing. Michal Dorda, Ph.D. 3

Zaveďme složky náhodného vektoru: X hodnocení ceny jízdného, Y hodnocení kvality cestování. X Tabulka sdružených a marginálních četností Y 1 3 4 1 1 1 1 0 3 0 1 0 3 3 0 5 9 4 0 0 3 5 1 4 10 5 0 Ing. Michal Dorda, Ph.D. 4

X P Y (y) Korelační tabulka Y 1 3 4 P X (x) 1 0,05 0,05 0,05 0 0,15 0 0,05 0,1 0 0,15 3 0 0,1 0,5 0,1 0,45 4 0 0 0,1 0,15 0,5 0,05 0, 0,5 0,5 1 Např. P P X 1, Y 1 0,05, PX 3, Y 3 X 1 0,15, P Y 0, X Y 0,5 Ing. Michal Dorda, Ph.D. 5

Aby byly složky X a Y nezávislé, pak musí platit (v případě diskrétního náhodného vektoru): P X x, Y y P x P y i j X i Y j. Tento předpoklad splněn není, např. PX 1, Y 1 0,05, PX X 1 PY Y 1 0,15 PX 1, Y 1 P X 1 P Y 1. X Y 0,05 0,0075 Ing. Michal Dorda, Ph.D. 6

Stanovení střední hodnoty a rozptylu složky X: EX EX 4 i1 4 i1 DX EX x i x P i X P X X X x i x i 1 0,15 0,15 30,45 40,5,8, 1 0,15 EX 8,8,8 0,96. 0,15 3 0,45 4 0,5 8,8, Ing. Michal Dorda, Ph.D. 7

Stanovení střední hodnoty a rozptylu složky Y: EY EY 4 j1 4 j1 DY EY y j y P j Y P Y Y Y y j y j 1 0,05 0, 30,5 40,5,95, 1 0,05 0, 3 EY 9,35,95 0,6475. 0,5 4 0,5 9,35, Ing. Michal Dorda, Ph.D. 8

DX Cov X, Y Kovarianční matice má tvar. Cov X, Y DY Cov 4 X, Y x, i EX y j EY P X xi Y y j i1 4 j1 1,8 1,950,05 1,8,950,05 1,8 3,950,05,8,950,05,8 3,950,1 3,8,950,1 3,8 3,950,5 3,8 4,950,1 4,8 3,950,1 4,8 4,95 0,15 0,49. Ing. Michal Dorda, Ph.D. 9

Výpočet kovariance můžeme rovněž provést podle vztahu: Cov E X, Y EX Y EX EY 8,75,8,95 0,49. X Y 110,05 10,05 130,05 0,05 30,1 30,1 330,5 340,1 430,1 440,15 8,75. Vidíme, že výsledky se shodují. Ing. Michal Dorda, Ph.D. 10

Výpočet kovariance v Excelu lze provést pomocí funkce COVAR. Kovarianční matice má tedy tvar 0,96 0,49 0,49 0,6475. Ing. Michal Dorda, Ph.D. 11

Jednoduchý korelační koeficient je definován vztahem: CovX, Y. X, Y pro DX, DY DX DY Po dosazení dostaneme: 0,49 X, Y 0,96 0,6475 0,6. 0 Ing. Michal Dorda, Ph.D. 1

Výpočet jednoduchého korelačního koeficientu lze v Excelu provést pomocí funkce CORREL. Podmíněná pravděpodobnost pro diskrétní náhodný vektor je definována: P X x, Y y P X xy y pro PY Y y 0. PY Y y P X 3, Y 3 0,5 Tedy P X 3Y 3 0,5. P Y 3 0,5 Y Ing. Michal Dorda, Ph.D. 13

Př. : V kontingenční tabulce jsou uvedeny výsledky celkového průzkumu spokojenosti cestujících s MHD. Ověřte na hladině významnosti α = 0,05 hypotézu, že hodnocení ceny jízdného a kvality cestování jsou nezávislé proměnné. Dále spočítejte koeficienty kontingence. Ing. Michal Dorda, Ph.D. 14

Označení: proměnná X hodnocení ceny jízdného, proměnná Y hodnocení kvality cestování. X Kombinační tabulka Y 1 3 4 1 1 9 19 11 60 18 18 16 8 60 3 10 16 9 9 44 4 10 8 1 6 36 59 51 56 34 00 Ing. Michal Dorda, Ph.D. 15

1. Formulace nulové a alternativní hypotézy: H 0 : Hodnocení ceny jízdného a hodnocení kvality cestování jsou nezávislé proměnné. H 1 : Hodnocení ceny jízdného závisí a hodnocení kvality cestování jsou závislé proměnné.. Testové kritérium je ve tvaru: K k m i1 j1 n ij n n * ij * ij. k1 m1 Ing. Michal Dorda, Ph.D. 16

3. Sestavení kritického oboru a oboru přijetí: x krit 1 ; k1 m1 CHIINV ; k 1 m 1. V našem případě 0,05; k 4; m 4, tedy: x krit CHIINV 0,05; 4 1 4 1 CHIINV0,05;9 16,9. Ing. Michal Dorda, Ph.D. 17

4. Výpočet pozorované hodnoty testové statistiky x obs : Výpočet teoretických četností n n n * 11 * 1 * 13 n n n 1 1 1 n n n n n n 1 3 60 59 17,7 00 60 51 15,3 00 60 56 16,8 00 n * ij n i n n j. Ing. Michal Dorda, Ph.D. 18

X Tabulka teoretických četností Y 1 3 4 1 17,7 15,3 16,8 10, 60 17,7 15,3 16,8 10, 60 3 1,98 11, 1,3 7,48 44 4 10,6 9,18 10,08 6,1 36 59 51 56 34 00 Jelikož jsou všechny teoretické četnosti větší než 5, máme splněny předpoklady pro použití testu. Ing. Michal Dorda, Ph.D. 19

x obs * nij nij 117,7 9 15,3 19 16,8 1110, 18 17,7 m i1 j1 16,8 n 6 6,1 6,1 n * ij 9,03. 10, 17,7 17,7 15,3 Ing. Michal Dorda, Ph.D. 0

X Y 1 3 4 1 0,61554,594118 0,88095 0,06745 3,5601 0,005085 0,476471 0,038095 0,47451 0,99416 3 0,68416,036399 0,894675 0,308877 3,9411 4 0,036196 0,151678 0,365714 0,00353 0,555941 1,340695 5,58665 1,58658 0,848485 9,03445 x obs Ing. Michal Dorda, Ph.D. 1

5. Formulace závěru testu: Jelikož platí, že x obs < x krit, nezamítáme nulovou hypotézu, tedy hodnocení ceny jízdného nezávisí na hodnocení kvality cestování. Ing. Michal Dorda, Ph.D.

Jelikož máme čtvercovou kontingenční tabulku, pro koeficient kontingence dostáváme: CC K K n 9,03 9,03 00 0,1. Pro Cramerův koeficient dostaneme: V n K 9,03 min k, m1 00 min 4,4 1 0,1. Ing. Michal Dorda, Ph.D. 3

Př. 3: Pro potřeby výpočtu propustnosti traťového úseku byla provedena analýza platného grafikonu vlakové dopravy. V rámci analýzy byly získány informace o jízdních dobách vlaků a jejich pořadí. Tyto informace jsou uvedeny v tabulce. Ing. Michal Dorda, Ph.D. 4

Pořadí vlaku Jízdní doba Pořadí vlaku Jízdní doba Pořadí vlaku Jízdní doba Pořadí vlaku Jízdní doba 1 8 1 5 41 5 61 1 1 5 4 8 6 5 3 1 3 1 43 5 63 8 4 8 4 5 44 1 64 8 5 1 5 1 45 8 65 1 6 5 6 5 46 8 66 8 7 1 7 5 47 5 67 8 8 1 8 8 48 5 68 5 9 5 9 1 49 8 69 1 10 5 30 5 50 8 70 5 11 5 31 5 51 5 71 8 1 5 3 5 5 5 7 1 13 8 33 8 53 8 73 8 14 8 34 5 54 5 74 1 15 5 35 8 55 5 75 5 16 1 36 5 56 5 76 8 17 1 37 5 57 8 77 5 18 5 38 8 58 8 78 8 19 1 39 1 59 5 79 8 0 5 40 5 60 5 80 5 Ing. Michal Dorda, Ph.D. 5

Na základě získaných dat otestujte, zda lze považovat sledy různých druhů vlaků (lišících se v jízdních dobách) za náhodné. Ing. Michal Dorda, Ph.D. 6

Z tabulky plyne, že v grafikonu jsou vedeny trasy 3 vlaků hodnoty jízdních dob činí 5, 8 a 1 minut. Označme tyto vlaky jako rychlík (jízdní doba 5 minut), osobní (jízdní doba 8 minut) a nákladní (jízdní doba 1 minut). Ing. Michal Dorda, Ph.D. 7

V další fázi musíme získat kontingenční tabulku, pomocí které znázorníme četnosti jednotlivých sledů (rychlík rychlík, rychlík osobní, ). Budeme-li pracovat v Excelu, lze kontingenční tabulku získat poměrně snadno. Nejdříve si vytvoříme pomocnou tabulku jednotlivých sledů. Ing. Michal Dorda, Ph.D. 8

Pořadí vlaku Jízdní doba 1 8 1 3 1 4 8 5 1 6 5 7 1 8 1 9 5 10 5 11 5 1. vlak. vlak 8 1 1 1 1 8 8 1 1 5 5 1 1 1 1 5 5 5 Levá tabulka představuje výřez tabulky s jednotlivými vlaky seřazenými dle jejich pořadí v grafikonu a jejich jízdní doby. Pravá tabulka potom představuje výřez tabulky sledů jednotlivých druhů vlaků. Šipkami je potom naznačen způsob, jakým pravou tabulku získáme. V prvním řádku pravé tabulky je sled osobní nákladní (1. vlak a. vlak dle pořadí z levé tabulky), v druhém řádku je sled nákladní nákladní (. a 3. vlak dle pořadí z levé tabulky) atd. Poslední řádek pravé tabulky (není znázorněno) bude obsahovat sled rychlík osobní (80. a 1. vlak dle pořadí z levé tabulky). Ing. Michal Dorda, Ph.D. 9

Nyní můžeme vytvořit kontingenční tabulku. Pokud jste nikdy nepracovali s kontingenční tabulkou, je vhodné se podívat do nápovědy. Ing. Michal Dorda, Ph.D. 30

Ing. Michal Dorda, Ph.D. 31

Získali jsme kontingenční tabulku, tedy tabulku sdružených a marginálních četností jednotlivých sledů vlaků. 1. vlak /. vlak Rychlík Osobní Nákladní Součet Rychlík 15 14 8 37 Osobní 11 7 7 5 Nákladní 11 4 3 18 Součet 37 5 18 80 Ing. Michal Dorda, Ph.D. 3

Nyní můžeme přistoupit k vlastnímu testování. Definujme si obě hypotézy: H 0 : Sledy jednotlivých druhů vlaků jsou v grafikonu vzájemně nezávislé. H 1 : Sledy jednotlivých druhů vlaků jsou v grafikonu vzájemně závislé. Ing. Michal Dorda, Ph.D. 33

Abychom mohli stanovit hodnotu testového kritéria, musíme vypočítat teoretické četnosti n * i n j podle nám již známého vztahu n. 1. vlak /. vlak Rychlík Osobní Nákladní Součet Rychlík 17,11 11,56 8,33 37,00 Osobní 11,56 7,81 5,63 5,00 Nákladní 8,33 5,63 4,05 18,00 Součet 37,00 5,00 18,00 80,00 ij n Ing. Michal Dorda, Ph.D. 34

Z tabulky teoretických četností vidíme, že 8 teoretických četností je větších než 5, 1 četnost je menší než 5, ale větší než. Máme tedy splněny předpoklady pro použití testu, nemusíme používat korigované testové kritérium (Yatesovu korekci). Ing. Michal Dorda, Ph.D. 35

Známe-li teoretické četnosti, lze přistoupit k výpočtu hodnoty testového kritéria: x obs k m i1 j1 * nij nij. n * ij 1. vlak /. vlak Rychlík Osobní Nákladní Součet Rychlík 0,6 0,51 0,01 0,79 Osobní 0,03 0,08 0,34 0,45 Nákladní 0,86 0,47 0,7 1,60 Součet 1,15 1,07 0,6,84 Ing. Michal Dorda, Ph.D. 36

Výpočtem jsme stanovili, že pozorovaná hodnota testového kritéria je rovna,84. Tuto hodnotu musíme porovnat s kritickou hodnotou testu, pro kterou platí: x krit 1 ; k 1 m1 1 0,05; 31 31 CHIINV (0,05;4) 9,49. Ing. Michal Dorda, Ph.D. 37

Srovnáním obou hodnot zjistíme, že pozorovaná hodnota testového kritéria leží v oboru přijetí (x obs < x krit ), tudíž nezamítáme nulovou hypotézu o nezávislosti sledů jednotlivých druhů vlaků. Ing. Michal Dorda, Ph.D. 38