Vícerozměrná rozdělení

Podobné dokumenty
Příklady ke čtvrtému testu - Pravděpodobnost

Vektor náhodných veli in - práce s více prom nnými

AVDAT Náhodný vektor, mnohorozměrné rozdělení

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

NÁHODNÝ VEKTOR. 4. cvičení

Odhady - Sdružené rozdělení pravděpodobnosti

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Stavový model a Kalmanův filtr

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a aplikovaná statistika

Statistika II. Jiří Neubauer

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Téma 22. Ondřej Nývlt

Zápočtová písemka z Matematiky III (BA04) skupina A

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné vektory a matice

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

VEKTOROVÁ POLE Otázky

Vzorová písemka č. 1 (rok 2015/2016) - řešení

Náhodný vektor a jeho charakteristiky

10. N á h o d n ý v e k t o r

INTEGRÁLY S PARAMETREM

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

VEKTOROVÁ POLE VEKTOROVÁ POLE

1 Rozptyl a kovariance

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

MATEMATIKA II - vybrané úlohy ze zkoušek ( 2015)

Výběrové charakteristiky a jejich rozdělení

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

MATEMATIKA II - vybrané úlohy ze zkoušek v letech

1. Přednáška. Ing. Miroslav Šulai, MBA

Charakterizace rozdělení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA - XP01MST

Diskrétní náhodná veličina

Regresní a korelační analýza

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

PŘEDNÁŠKA 9 KŘIVKOVÝ A PLOŠNÝ INTEGRÁL 1. DRUHU

NÁHODNÁ VELIČINA. 3. cvičení

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Statistická analýza jednorozměrných dat

12. cvičení z PST. 20. prosince 2017

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Bodové odhady parametrů a výstupů

Testy. Pavel Provinský. 19. listopadu 2013

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

má spojité parciální derivace druhého řádu ve všech bodech této množiny. Výpočtem postupně dostaneme: y = 9xy2 + 2,

PRAVDĚPODOBNOST A STATISTIKA

Základy teorie pravděpodobnosti

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

KGG/STG Statistika pro geografy

Nalezněte hladiny následujících funkcí. Pro které hodnoty C R jsou hladiny neprázdné

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

1 Analytická geometrie

Zavedeme-li souřadnicový systém {0, x, y, z}, pak můžeme křivku definovat pomocí vektorové funkce.

Kapitola 7: Neurčitý integrál. 1/14

Regresní analýza 1. Regresní analýza

Funkce zadané implicitně

Funkce. Definiční obor a obor hodnot

Úvodní informace. 17. února 2018

AVDAT Klasický lineární model, metoda nejmenších

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Dvojné a trojné integrály příklad 3. x 2 y dx dy,

Přijímací zkoušky z matematiky pro akademický rok 2018/19 NMgr. studium Učitelství matematiky ZŠ, SŠ

Otázky k ústní zkoušce, přehled témat A. Číselné řady

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

NMAI059 Pravděpodobnost a statistika

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

Teorie. Hinty. kunck6am

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Diferenciální počet funkcí více proměnných

MKI Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0.

NMAF 051, ZS Zkoušková písemná práce 26. ledna x. x 1 + x dx. q 1. u = x = 1 u2. = 1 u. u 2 (1 + u 2 ) (1 u 2 du = 2.

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Kapitola 7: Integrál. 1/17

Transformujte diferenciální výraz x f x + y f do polárních souřadnic r a ϕ, které jsou definovány vztahy x = r cos ϕ a y = r sin ϕ.

PRIMITIVNÍ FUNKCE. Primitivní funkce primitivní funkce. geometrický popis integrály 1 integrály 2 spojité funkce konstrukce prim.

11. cvičení z Matematické analýzy 2

Regresní a korelační analýza

Funkce jedné proměnné

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

5. cvičení z Matematiky 2

I. D i s k r é t n í r o z d ě l e n í

Transkript:

Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice. Sdružená, marginální a podmíněná hustota pravděpodobnosti Sdružená hustota f(x, y) Jedná se o funkci více proměnných, která: ) Je na celém definičním intervalu nezáporná. ) Integrál (součet) přes celý definiční obor z této funkce je. Marginální hustota f(x) Jedná se o hustotu pravděpodobnosti jedné proměnné odvozenou ze sdružené, s tím, že mne zajímá pravděpodobnostní rozdělení pouze této jedné proměnné. Spočte se integrováním přes všechny ostatní proměnné a přes celý definiční obor: ˆ f(x) f(x, y) dy Ω Podmíněná hustota f(x y) Jedná se o hustotu pravděpodobnosti jedné proměnné (x) odvozenou za předpokladu, že znám hodnoty ostatních proměnných (y). Spočte se: f(x y) f(x, y) f(y) Pokud v podmíněné hustotě f(x y) proměnná y nevystupuje, jsou veličiny x a y nezávislé. To znamená, že znalost o jedné z nich mi nepřináší jakoukoliv informaci o druhé z nich.

Kovariance a korelace Chci umět říci, jak moc jsou dvě veličiny na sobě lineárně závislé. První obrázek ukazuje velkou závislost, druhý nulovou. Na prvním obrázku vidíme, že pokud je x větší než průměr, i y bývá větší než průměr. Důležité jsou tedy odchylky od průměru. Základem tedy nebudou vektory hodnot, ale vektory hodnot, od nichž je odečtena střední hodnota. Např. X x µ x. Z těchto vektorů udělám skalární součin X Y (x µ x ) (y µ y ). Protože skalární součin bude tím větší, čím víc položek budou mít vektory, podělím skalární součin počtem položek a dostanu kovarianci. Pokud pracuji s výběrovým souborem, nedělím n, ale n. Je to úplně stejné jako u rozptylů. Pozor na to! Mimochodem - kovariance vektoru se sebou samým dává právě rozptyl. Základní soubor: Výběrový soubor: (x µx ) (y µ y ) cov(x, y) n (x x) (y ȳ) cov(x, y) n Užitečnější než kovariance je korelační koeficient. Možná si vzpomenete na vzoreček ze střední školy pro skalární součin: cos α u v u v. Když je kosinus blízký jedničce, ukazují oba vektory téměř stejným směrem. Když je blízký -, ukazují téměř opačně. Když je kolem nuly, ukazují zcela jinam. A to je vlastně korelační koeficient. Když si za vektory vezmu ty s odečtenou střední hodnotou (X x µ x, Y y µ y ), můžeme korelační koeficient definovat jako: r xy X Y X Y (x µx ) (y µ y ) (x µx ) (y µ y ) Jinak můžeme použít i definici: r xy cov(x, y) σ x σ y

Tento vzorec platí pro základní i výběrový soubor, protože faktor n resp. n se vykrátí. Hodnota korelačního koeficientu je vždy mezi - a. Pokud je blízko krajním hodnotám, veličiny na sobě silně lineárně závisí. Pokud je blízko nuly, lineární závislost je slabá nebo žádná. Kovarianční a korelační matice Když mám vektorů více, mohu sestrojit kovarianční nebo korelační matici, kam napíšu kovarianci resp. korelaci každého vektoru s každým. Na diagonále kovarianční matice tak dostanu rozptyly. Na diagonále korelační matice jedničky. Následuje několik ilustračních grafů s hodnotami korelačního koeficientu.

V předposledním obrázku získáváme nulový korelační koeficient, protože y není závislé na x. Pro jakékoliv x je stále nula. V posledním obrázku vidíme, že korelační koeficient měří jen lineární závislost. Složitější závislost není schopen zachytit. Příklady Práce s vícerozměrnými rozděleními, sdružené, marginální a podmíněné rozdělení pravděpodobnosti Zjistěte, zda funkce dvou proměnných f(x, y) x + y definovaná pro x 0, a y 0, může být hustotou pravděpodobnosti. Proč? ) Záporná není nikde - OK ) Integrál přes celý definiční obor? ˆ ˆ x0 y0 (x + y) dy dx ˆ x0 ˆ x0 [ x ] [xy + y y0dx [ x + ] dx + x ] + x0 Obě podmínky jsou splněny, funkce může být hustotou pravděpodobnosti. Zjistěte, zda funkce dvou proměnných f(x, y) x y být hustotou pravděpodobnosti. Proč? ) Záporná není nikde - OK ) Integrál přes celý definiční obor? definovaná pro x, a y, může 4

x y x dy dx y x x x x x x x y y ( [ x y x dx x dx [ x ] x [0 ( )] y dy dx y dy dx ] y ) dx Obě podmínky jsou splněny, funkce může být hustotou pravděpodobnosti. Máme dvourozměrnou hustotu pravděpodobnosti f(x, y) 4 sin x sin y definovanou pro x 0, π a y 0, π. Spočtěte marginální hustotu f(y) a podmíněnou hustotu f(x y). Zjistěte, zda jsou veličiny x a y závislé či nezávislé. Marginální hustota: f(y) ˆπ x0 sin x sin y dx 4 ˆπ 4 sin y sin x dx x0 4 sin y [ cos x]π x0 sin y [ ( ) ( )] 4 sin y Podmíněná hustota: f(x y) f(x, y) f(y) 4 sin x sin y sin y sin x 5

Závislost / nezávislost: Vidíme, že f(x y) nezávisí na y. Veličiny x a y jsou tedy nezávislé. Máme dvourozměrnou hustotu pravděpodobnosti f(x, y) π e x y x definovanou pro kladná x a y. Spočtěte marginální hustotu f(y) a podmíněnou hustotu f(x y). Zjistěte, zda jsou veličiny x a y závislé či nezávislé. Tento příklad si rozebereme podrobněji. V první řadě je otázkou, jestli je zadaná funkce opravdu hustotou pravděpodobnosti. To by jednak nesměla být nikde záporná, jednak by integrál z ní přes celý definiční obor musel vyjít jedna. První podmínka je splněna, neboť e na cokoli je kladné. A když věnujeme několik minut integrování, zjistíme, že konstanta na začátku funkce je zvolena dobře a že opravdu platí: y0 x0 π e x y x dx dy. To byla poznámka k hustotě pravděpodobnosti, my máme spočíst jen marginální a podmíněnou hustotu. Chceme marginální hustotu podle y, zintegrujeme tedy pravděpodobnostní funkci podle druhé proměnné, tedy podle x: f(y) x0 π e x y x dx π Provedeme substituci za celý exponent: x0 e (y +) x dx Tedy máme: z ( y + ) x ( y + ) dz dx dx y + dz x 0 z 0 x z ˆ π π π z0 e z y + ( ) y dz + ˆ0 z e z dz y + [ez ] 0 z 6

π y [ 0] + π y + Hurá! Marginální hustotu podle y máte hotovu! Podmíněnou pravděpodobnost f(x y) už spočteme snadno podle standardního vzorce: f(x y) f(x, y) f(y) π e x y x π y + ( y + ) e (y +) x Vidíme, že jsme dostali exponenciální rozdělení, ovšem s proměnlivým parametrem závislým na y: D y +. Jak je to se závislostí? Vidíme, že pravděpodobnostní rozdělení f(x y) opravdu závisí na tom, jaké zvolíme y. Tedy veličiny x a y jsou závislé. Nakonec ještě několik obrázků: Nejprve celá sdružená hustota ze dvou pohledů. V prvním jsou dobře vidět půlkopečky typu y +, v druhém exponenciály, které mají tím větší spád, čím jsou blíže k nám. 7

y Následuje marginální hustota podle y: A ještě podmíněné pravděpodobnosti pro několik zvolených y. Opravdu vidíme několik různě strmých exponenciál: Máme dvourozměrnou hustotu pravděpodobnosti f(x, y) (x + y ) definovanou pro x 0, a y 0,. Spočtěte marginální hustotu f(x) a podmíněnou hustotu f(y x). Zjistěte, zda jsou veličiny x a y závislé či nezávislé. 8

Marginální hustota: f(x) ˆ y0 (x + y ) dy [ x y + y ] y0 [ x + ] 0 0 x + Podmíněná hustota: Závislost / nezávislost: f(x, y) f(y x) f(x) (x + y ) (x ) + x + y x + Vidíme, že f(y x) opravdu závisí na x. Veličiny x a y jsou tedy závislé. Máme hustotu pravděpodobnosti dvou proměnných f(x, y) x + y definovanou pro x 0, a y 0,. Jaká je střední hodnota vektorové veličiny (x, y)? µ x ˆ ˆ x0 y0 x (x + y) dy dx ˆ x0 ˆ x0 [ x ] [x y + xy y0dx [ x + x ] dx + x 4 ] + 4 7 x0 Nyní naprosto stejným způsobem spočteme střední hodnotu y: ˆ ˆ µ y y (x + y) dy dx x0 y0 ˆ x0 [ xy + y ] y0dx 9

ˆ x0 [ x [ x + ] dx 4 + x ] x0 4 + 7 Střední hodnotou vektorové veličiny je bod [ 7, 7 ]. Máme hustotu pravděpodobnosti dvou proměnných f(x, y) x y y,. Jaká je střední hodnota vektorové veličiny (x, y)? definovanou pro x, a Spočteme nejprve střední hodnotu x. Integrujeme přes celý definiční obor: µ x x y x x dy dx y x x x x x x y y ( [ x y x dx [ln x] x [ 0] y dy dx y dy dx ] y ) dx Setkali jsme se se zvláštním jevem, totiž s tím, že střední hodnota může být i nekonečná. Nyní naprosto stejným způsobem spočteme střední hodnotu y: µ y x y y x y dy dx Střední hodnotou vektorové veličiny je nevlastní bod [, ]. Kovariance a korelace Naměřili jsme tyto dvojice hodnot: x 5 7 y 9 7 5 Spočtěte pro tyto vektory kovarianci, korelační koeficient, kovarianční a korelační matici. 0

Jde o několik měření, budeme tedy soubor chápat jako soubor výběrový, což nám ovlivní kovarianci a kovarianční matici. Pro korelaci to je jedno. Začněme s výpočtem: x 4 ȳ 6 x y x x y ȳ (x x) (y ȳ) (x x) (y ȳ) 9 - -9 9 9 7 - - 5 5 - - 7 - -9 9 9 Kovariance: cov(x, y) Rozptyly: s x s y (x x)(y ȳ) n (x x) n 0 (y ȳ) n 0 Směrodatné odchylky: s x s x, 58 s y s y, 58 6, 67 6, 67 Korelační koeficient: r xy cov(x,y) s x s y 6,67,58,58 Kovarianční matice: x y x 6,67-6,67 y -6,67 6,67 Korelační matice: x y x - -0 0 0 0 6, 67 y - Vidíme, že veličiny x a y jsou velmi silně negativně korelovány. V základním souboru máme tyto čtveřice hodnot: x 5 7 y 9 7 5 Spočtěte pro tyto vektory kovarianci, korelační koeficient, kovarianční a korelační matici. Máme soubor základní, což nám ovlivní kovarianci a kovarianční matici. Pro korelaci to je jedno. Začněme s výpočtem: µ x 4 µ y 6

x y x µ x y µ y (x µ x) (y µ y) (x µ x) (y µ y) 9 - -9 9 9 7 - - 5 5 - - 7 - -9 9 9 Kovariance: cov(x, y) Rozptyly: σ x (x µx)(y µ y) n (x µx) n 0 4 5 σy (y µy) n 0 4 5 Směrodatné odchylky: σ x s x, 4 σ y s y, 4 Korelační koeficient: r xy cov(x,y) σ x σ y 5,4,4 Kovarianční matice: x y x 5-5 y -5 5 Korelační matice: x y x - -0 0 0 0 4 5 y - Vidíme, že veličiny x a y jsou velmi silně negativně korelovány. Korelační matice vyšla stejně jako v případě výběrového souboru. Naměřili jsme tyto trojice hodnot: x 5 7 y 6 7 9 z 5 6 8 Spočtěte pro tyto vektory kovarianci, korelační koeficient, kovarianční a korelační matici. Jde o několik měření, budeme tedy soubor chápat jako soubor výběrový, což nám ovlivní kovarianci a kovarianční matici. Pro korelaci to je jedno. Začněme s výpočtem: x 4 ȳ 6 z 5 x y z x x y ȳ z z (x x) (y ȳ) (x x) (z z) (y ȳ) (z z) (x x) (y ȳ) (z z) 5 - -4 0 0 0 9 6 0 6 6-0 0-0 0 5 7-4 -4-4 6 7 9 8 9 9 9 9 9 9 4 5 0 6 6

Kovariance: cov(x, y) cov(x, z) cov(y, z) Rozptyly: s x s y s z (x x)(y ȳ) n (x x)(z z) n 4 (y ȳ)(z z) n 4 (x x) n 0 (y ȳ) n 6 (z z) n 6 Směrodatné odchylky: s x s x, 58 s y s y, 94 s z s z, 94 6, 67 8, 67 8, 67 Korelační koeficient: r xy cov(x,y) s x s y 7,,58,94 0, 96 r xz cov(x,z) s x s z,,58,94 0, 8 r yz cov(y,z) s y s z,,94,94 Kovarianční matice: x y z x 6,67 7,, y 7, 8,67,66 z,,66 8,67 Korelační matice: x y z x 0,96 0,8 y 0,96 0,9 0, 9 7,,, 66 z 0,8 0,9 Vidíme, že silně pozitivně jsou korelovány veličiny x a y. Ostatní dvojice mají korelaci velmi slabou.