MATEMATICKÁ STATISTIKA - XP01MST

Podobné dokumenty
MATEMATICKÁ STATISTIKA

I. D i s k r é t n í r o z d ě l e n í

p(x) = P (X = x), x R,

Téma 22. Ondřej Nývlt

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

10. N á h o d n ý v e k t o r

Charakterizace rozdělení

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

8. Normální rozdělení

Pravděpodobnost a aplikovaná statistika

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

PRAVDĚPODOBNOST A STATISTIKA

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Praktická statistika. Petr Ponížil Eva Kutálková

Statistika II. Jiří Neubauer

Výběrové charakteristiky a jejich rozdělení

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

NÁHODNÝ VEKTOR. 4. cvičení

Základy teorie pravděpodobnosti

Náhodný vektor a jeho charakteristiky

Náhodná veličina a rozdělení pravděpodobnosti

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

1 Rozptyl a kovariance

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Pravděpodobnost a statistika I KMA/K413

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Pravděpodobnost a statistika

NÁHODNÁ VELIČINA. 3. cvičení

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

JAK MODELOVAT VÝSLEDKY

Jevy a náhodná veličina

15. T e s t o v á n í h y p o t é z

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Normální rozložení a odvozená rozložení

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Vícerozměrná rozdělení

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Inovace bakalářského studijního oboru Aplikovaná chemie

NMAI059 Pravděpodobnost a statistika

Diskrétní náhodná veličina. November 12, 2008

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Matematika pro chemické inženýry

5. T e s t o v á n í h y p o t é z

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

2 Hlavní charakteristiky v analýze přežití

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Charakteristika datového souboru

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

10 Funkce více proměnných

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Příklady ke čtvrtému testu - Pravděpodobnost

Interpolace, ortogonální polynomy, Gaussova kvadratura

1. Přednáška. Ing. Miroslav Šulai, MBA

Testování statistických hypotéz

Základy popisné statistiky

Náhodné (statistické) chyby přímých měření

Chyby měření 210DPSM

Pravděpodobnost a statistika

Náhodné vektory a matice

PRAVDĚPODOBNOST A STATISTIKA

Zápočtová práce STATISTIKA I

Metodologie pro ISK II

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

18 Fourierovy řady Úvod, základní pojmy

PRAVDĚPODOBNOST A STATISTIKA

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

8 Střední hodnota a rozptyl

Definice spojité náhodné veličiny zjednodušená verze

Základy teorie odhadu parametrů bodový odhad

Primitivní funkce a Riemann uv integrál Lineární algebra Taylor uv polynom Extrémy funkcí více prom ˇenných Matematika III Matematika III Program

PRAVDĚPODOBNOST A STATISTIKA

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

SPOJITÉ ROZDĚLENÍ PRAVDĚPODOBNOSTI. 7. cvičení

Transkript:

MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného procesu, se snažíme popsat zákonitosti skrytého náhodného procesu. K tomu používáme počtu pravděpodobnosti (probability), který obsahuje algoritmy, pomocí nichž lze rozdělení pravděpodobnosti nalézt. Připomeňme si proto základní pojmy a skutečnosti, které budeme v dalším textu používat. Náhodná veličina (random variable) je funkce, která přiřazuje náhodným jevům reálné (komplexní) hodnoty. Budeme ji označovat velkými písmeny, např. X, Y, U, Z, X i. Rozdělení pravděpodobnosti charakterizujeme pomocí reálné funkce reálné proměnné, kterou nazýváme distribuční funkcí (probability distribution function, cumulative distribution function). Je-li X náhodná veličina, pak její distribuční funkcí nazýváme funkci F : R R definovanou předpisem F (x) = P (X x), x R. Typy rozdělení náhodné veličiny. 1. Diskrétní rozdělení: (discrete type) Náhodná veličina má diskrétní rozdělení, jestliže nabývá pouze disktrétních hodnot. Těchto hodnot je buď konečný počet nebo nejvýše spočetně mnoho. Tvoří tedy posloupnost. Náhodná veličina je plně charakterizována pravděpodobnostmi výskytu těchto hodnot, které nazýváme pravděpodobnostní funkcí (probability mass function) náhodné veličiny. Je-li X náhodná veličina, pak funkci p : R R definovanou předpisem p(x) = P (X = x), x R, nazýváme pravděpodobnostní funkcí náhodné veličiny X. Je pak 0 p(x) 1 p(x) = 1, F (x) = t x x R p(t), x R, P (X A) = x A p(x). 3

2. Spojité rozdělení: (continuous type) Náhodná veličina X má spojité rozdělení, jestliže je její distribuční funkce F spojitá a pro ní a její derivaci f platí, že F (x) = x f(t)dt, x R a F (x) = f(x) všude, kde derivace existuje. (Tzv. absolutní spojitost.) Funkce f(x) = F (x) se nazývá hustotou rozdělení pravděpodobnosti (probability density function) náhodné veličiny X. Je f(x) 0, x R, P (X A) = A f(x) dx = 1, f(x) dx. 3. Smíšené rozdělení: Náhodná veličina má smíšené rozdělení, jestliže je její distribuční funkce nespojitá a v intervalech spojitosti je primitivní funkcí své derivace. Připomeňme, že skoky odpovídají kladné pravděpodobnosti výskytu jednotlivých hodnot a že jich může být nejvýše spočetně mnoho. Je-li X náhodná veličina, která má smíšené rozdělení, pak pro její distribuční funkci F platí: F (x) = [F (t) F (t )] + t x x F (t) dt, x R. Potom je P (X = x) = F (x) F (x ), x R, P (X A) = [F (x) F (x )] + x A A F (x) dx. Náhodný vektor V některých případech má sledovaná veličina více hodnot, má vektorový charakter. Definujeme náhodný vektor (random vector) jako uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n. Rozdělení pravděpodobnosti určuje sdružená distribuční funkce (joint probability distribution function), která je definována předpisem F (x 1, x 2,..., x n ) = P (X 1 x 1, X 2 x 2,..., X n x n ), (x 1, x 2,..., x n ) R n. 4

Pro popis v případě diskrétního rozdělení používáme sdruženou pravděpodobnostní funkci (joint probability mass function), která je definována předpisem p(x 1, x 2,..., x n ) = P (X 1 = x 1, X 2 = x 2,..., X n = x n ), (x 1, x 2,..., x n ) R n. Pro spojité rozdělení používáme sdruženou hustotu (joint probability density function), která je definována vztahy F (x 1, x 2,..., x n ) = f(x 1, x 2,..., x n ) = x1 x2 n F x 1 x 2... x n... xn f(t 1, t 2,..., t n ) dt 1 dt 2... dt n Marginální rozdělení (marginal distribution) je rozdělení jednotlivých souřadnic náhodného vektoru, případně náhodného vektoru, který získáme vybráním některých souřadnic. Označme (X, Y ) náhodný vektor, kde X jsou vybrané souřadnice a Y vynechané souřadnice původního náhodného vektoru, který má rozdělení určené sdruženou distribuční funkcí F (x, y), resp. sdruženou hustotou f(x, y), či sdruženou pravděpodobnostní funkcí p(x, y). Pak marginální rozdělení náhodného vektoru X dostaneme ze vztahů: marginální distribuční funkce (marginal distribution function) F 1 (x) = lim y F (x, y); marginální hustota (marginal density function) f 1 (x) = R n k f(x, y) dy, y Rn k ; marginální pravděpodobnostní funkce (marginal mass) p 1 (x) = y p(x, y). Závislost a nezávislost Náhodné veličiny X a Y jsou nezávislé, právě když jsou nezávislé náhodné jevy (X x) a (Y y) pro každé x, y R. Odtud dostaneme ekvivalentní podmínky pro sdružené a marginální charakteristiky: 5

F (x, y) = F 1 (x).f 2 (y), (x, y) R 2 ; f(x, y) = f 1 (x).f 2 (y), (x, y) R 2 ; p(x, y) = p 1 (x).p 2 (y), (x, y) R 2. Náhodné veličiny, které nejsou nezávislé jsou závislé. Číselné charakteristiky a charakteristická funkce. Pro chování náhodné veličiny mají v řadě případů význam některé číselné charakteristiky, které často souvisí s hodnotami parametrů, které se v popisu hustoty či pravděpodobnostní funkce vyskytují. Uveďme základní z nich a současně připomeneme jejich názvy a značení. Charakteristiky polohy Je-li X náhodná veličina, která je popsána hustotou f, resp. pravděpodobnostní funkcí p, či obecně distribuční funkcí F, pak pro ni definujeme: Střední hodnotu (mean, average value) náhodné veličiny X jako E(X) = µ 1(X) = µ 1, předpisem E(X) = xf(x) dx, resp. E(X) = x R xp(x), obecně tedy E(X) = x R x [F (x) F (x )] + xf (x) dx, pokud existují. Charakteristiky variability Rozptyl (variance) náhodné veličiny X jako D(X) = µ 2 (X) = µ 2, předpisem D(X) = E[(X E(X)) 2 ] = E(X 2 ) [E(X)] 2. Směrodatnou odchylku (standard deviation) σ(x) = σ = D(X). Momenty (moments) náhodné veličiny X k tý obecný moment (k-th moment) µ k(x) = µ k = E(X k ), k = 0, 1,.... 6

k tý centrální moment (k-th central moment) µ k (X) = µ k = E[(X E(X)) k ], k = 0, 1,.... Je tedy µ 0 = µ 0 = 1, µ 1 = 0, µ 1 = E(X), µ 2 = D(X) a µ k = k i=0 k ( 1) i µ i k i (µ 1) i. Koeficient šikmosti (skewness)α(x) = α = µ 3(X) (σ(x)) 3. Koeficient špičatosti (kurtosis)ε(x) = ε = µ 4(X) (σ(x)) 4 3. y α > 0 α = 0 α < 0 x Význam koeficientu šikmosti y ε > 0 ε = 0 ε < 0 x Význam koeficientu špičatosti Poznámka: Tyto koeficienty se používají k podrobnějšímu popisu rozdělení pravděpodobnosti. Pro symetrické rozdělení je koeficient šikmosti α(x) = 0. Je-li α(x) > 0, pak je rozdělení vychýlené vpravo, pro α(x) < 0 je vychýlené vlevo. Při hodnotě α(x) > 0 se s větší pravděpodobností vyskytují hodnoty vzdálenější od střední hodnoty vpravo, při opačné hodnotě 7

α(x) < 0 vlevo. Situace je na obrázku. Pro normální rozdělení je koeficient špičatosti ε(x) = 0. Rozdělení, pro které je ε(x) > 0 je hustota více koncentrována ke střední hodnotě než normální rozdělení a pro ε(x) < 0 je průběh hustoty plošší než je průběh hustoty normálního rozdělení. Někdy se v koeficientu špičatosti vynechává člen 3 a pak je pro normální rozdělení roven koeficient 3. Je-li X náhodná veličina, pak pro reálnou hodnotu proměnné t definujeme náhodnou veličinu e jtx předpisem: X = x e jtx = e jtx = cos tx + j sin tx, t R. Střední hodnota této náhodné veličiny je funkcí proměnné t R a nazýváme jí charakteristickou funkcí (charakteristic function) náhodné veličiny X. Označujeme ji symbolem ψ X (t) = E(e jtx ), t R. Pro charakteristickou funkci platí, že má tolik derivací v bodě t = 0, kolik má náhodná veličina momentů a ψ (k) X (0) = j k µ k(x) = j k E(X k ), k = 0, 1,.... Jestliže má náhodná veličina X momenty do určitého řádu, pak můžeme napsat Taylorův polynom charakteristické funkce. Jestliže použijeme proměnné (jt) místo t dostaneme ψ X (t). = 1 + n i=1 µ i i! (jt)i. Potom funkce φ X (t) = ln ψ X (t) má také derivace v bodě t = 0 a jestliže označíme její Taylorův rozvoj v bodě t = 0 φ X (t). = n i=1 k i i! (jt)i, pak koeficienty k i nazýváme kumulanty (cumulants) a platí pro ně: k 1 = µ 1 = E(X). k 2 = µ 2 (µ 1) 2 = µ 2 = D(X). k 3 = µ 3 3µ 1µ 2 + 2(µ 1) 3 = µ 3. k 4 = µ 4 3(µ 2) 2 4µ 1µ 3 + 12(µ 1) 2 µ 2 6(µ 1) 4 = µ 4 3µ 2 2. Dále je 8

α = k 3 k 3/2 2, ε = k 4 k2 2. Kvantily (quantiles) jsou další z číselných charakteristik, které používáme k popisu rozdělení náhodné veličiny. Uveďme nejprve jeho definici v nejjednodušším případě, který se nám nejčastěji v aplikacích vyskytuje. Je-li X náhodná veličina, která má spojité rozdělení a nabývá hodnot z intervalu (a, b) taková, že je její distribuční funkce F rostoucí v intervalu (a, b), pak pro číslo 0 < p < 1 je její p kvantil (p-quantile), či 100p% kvantil x p definován vztahem P (X x p ) = p F (x p ) = p x p = F 1 (p), tedy p = xp f(t) dt. x p f(x) x p x p F (x) x Obr. 1.1 Obr. 1.2. V obecném případě je kvantil definován vztahem F (x p +) = F (x p ) p, F (x p ) p. Poznamenejme, že pro diskrétní rozdělení a pro spojitá rozdělení, která nemají rostoucí distribuční funkci není kvantil určen jednoznačně. Obvykle v tomto případě uvažujeme jako jeho hodnotu největší z hodnot, které splňují požadovanou podmínku. Některé z kvantilů mají výsadní postavení. Mají zvláštní názvy a jejich hodnoty bývají pro řadu rozdělení tabelovány. Nazýváme: x = x 0,5 -kvantil jako medián (median); x 0,25 -kvantil jako dolní kvartil (lower quantile); x 0,75 -kvantil jako horní kvartil (upper quantile). Používáme ješte kvantily x 0,1 a x 0,9 (decile) při ořezávání souborů a kvantily x 0,95, x 0,975 a x 0,99 při testování hypotéz. 9

V některých aplikacích se používají tzv. písmenkové kvantily, kde se škála (0, 1) dělí postupně na poloviční délky intervalů, tedy 1/2, 1/4, 1/8 Používáme pak písmen: M medián x 0,5 ; F kvartily F D = x 0,25, F H = x 0,75 ; E oktily E D = x 0,125, E H = x 0,875 ; D sedecily D D = x 1/16, D H = x 15/16. Jako charakteristika variability se také používá mezikvartilové rozpětí (interquartile range) IQR = R F = x 0,75 x 0,25. Jako charakteristika šikmosti se někdy používá (x 0,75 x 0,5 ) (x 0,5 x 0,25 ) = F H + F D 2M R F. x 0,75 x 0,25 Modus (mode) ˆx je další číselnou charakteristikou, pomocí níž popisujeme chování náhodné veličiny. Je definován tak, že je to hodnota, pro kterou je hustota či pravděpodobnostní funkce největší. Odpovídá tedy hodnotě, které nabývá náhodná veličina nejčastěji. Náhodná veličina může mít i víc módů. Vypovídací hodnota této charakteristiky je malá, používá se jako doplňková k ostatním. Charakteristiky závislosti Pro popis závislosti používáme koeficient kovariance cov(x, Y ) (covariation), častěji ale koeficient korelace ρ(x, Y ) (coefficient of linear correlation, které jsou definovány pro náhodné veličiny X a Y vzorci cov(x, Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y ), ρ(x, Y ) = cov(x, Y ) D(X)D(Y ) Je pak: ρ(x, X) = D(X), 1 ρ(x, Y ) 1, Jsou-li náhodné veličiny X a Y nezávislé, pak ρ(x, Y ) = 0 a pro ρ(x, Y ) 0 jsou náhodné veličiny X a Y závislé. Pro normální rozdělení platí ekvivalence. Pouze pro lineární závislost Y = ax + b je ρ(x, Y ) = sgn a. Kovarianční a korelační matice dostaneme pro náhodný vektor (X 1, X 2,..., X n ) a jsou definovány jako Σ = (σ ij ), σ ij = cov(x i, X j ), ρ = (ρ ij ), ρ ij = ρ(x i, X j ). Matice jsou symetrické a na diagonále jsou kladná čísla, resp. 1. 10