MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného procesu, se snažíme popsat zákonitosti skrytého náhodného procesu. K tomu používáme počtu pravděpodobnosti (probability), který obsahuje algoritmy, pomocí nichž lze rozdělení pravděpodobnosti nalézt. Připomeňme si proto základní pojmy a skutečnosti, které budeme v dalším textu používat. Náhodná veličina (random variable) je funkce, která přiřazuje náhodným jevům reálné (komplexní) hodnoty. Budeme ji označovat velkými písmeny, např. X, Y, U, Z, X i. Rozdělení pravděpodobnosti charakterizujeme pomocí reálné funkce reálné proměnné, kterou nazýváme distribuční funkcí (probability distribution function, cumulative distribution function). Je-li X náhodná veličina, pak její distribuční funkcí nazýváme funkci F : R R definovanou předpisem F (x) = P (X x), x R. Typy rozdělení náhodné veličiny. 1. Diskrétní rozdělení: (discrete type) Náhodná veličina má diskrétní rozdělení, jestliže nabývá pouze disktrétních hodnot. Těchto hodnot je buď konečný počet nebo nejvýše spočetně mnoho. Tvoří tedy posloupnost. Náhodná veličina je plně charakterizována pravděpodobnostmi výskytu těchto hodnot, které nazýváme pravděpodobnostní funkcí (probability mass function) náhodné veličiny. Je-li X náhodná veličina, pak funkci p : R R definovanou předpisem p(x) = P (X = x), x R, nazýváme pravděpodobnostní funkcí náhodné veličiny X. Je pak 0 p(x) 1 p(x) = 1, F (x) = t x x R p(t), x R, P (X A) = x A p(x). 3
2. Spojité rozdělení: (continuous type) Náhodná veličina X má spojité rozdělení, jestliže je její distribuční funkce F spojitá a pro ní a její derivaci f platí, že F (x) = x f(t)dt, x R a F (x) = f(x) všude, kde derivace existuje. (Tzv. absolutní spojitost.) Funkce f(x) = F (x) se nazývá hustotou rozdělení pravděpodobnosti (probability density function) náhodné veličiny X. Je f(x) 0, x R, P (X A) = A f(x) dx = 1, f(x) dx. 3. Smíšené rozdělení: Náhodná veličina má smíšené rozdělení, jestliže je její distribuční funkce nespojitá a v intervalech spojitosti je primitivní funkcí své derivace. Připomeňme, že skoky odpovídají kladné pravděpodobnosti výskytu jednotlivých hodnot a že jich může být nejvýše spočetně mnoho. Je-li X náhodná veličina, která má smíšené rozdělení, pak pro její distribuční funkci F platí: F (x) = [F (t) F (t )] + t x x F (t) dt, x R. Potom je P (X = x) = F (x) F (x ), x R, P (X A) = [F (x) F (x )] + x A A F (x) dx. Náhodný vektor V některých případech má sledovaná veličina více hodnot, má vektorový charakter. Definujeme náhodný vektor (random vector) jako uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n. Rozdělení pravděpodobnosti určuje sdružená distribuční funkce (joint probability distribution function), která je definována předpisem F (x 1, x 2,..., x n ) = P (X 1 x 1, X 2 x 2,..., X n x n ), (x 1, x 2,..., x n ) R n. 4
Pro popis v případě diskrétního rozdělení používáme sdruženou pravděpodobnostní funkci (joint probability mass function), která je definována předpisem p(x 1, x 2,..., x n ) = P (X 1 = x 1, X 2 = x 2,..., X n = x n ), (x 1, x 2,..., x n ) R n. Pro spojité rozdělení používáme sdruženou hustotu (joint probability density function), která je definována vztahy F (x 1, x 2,..., x n ) = f(x 1, x 2,..., x n ) = x1 x2 n F x 1 x 2... x n... xn f(t 1, t 2,..., t n ) dt 1 dt 2... dt n Marginální rozdělení (marginal distribution) je rozdělení jednotlivých souřadnic náhodného vektoru, případně náhodného vektoru, který získáme vybráním některých souřadnic. Označme (X, Y ) náhodný vektor, kde X jsou vybrané souřadnice a Y vynechané souřadnice původního náhodného vektoru, který má rozdělení určené sdruženou distribuční funkcí F (x, y), resp. sdruženou hustotou f(x, y), či sdruženou pravděpodobnostní funkcí p(x, y). Pak marginální rozdělení náhodného vektoru X dostaneme ze vztahů: marginální distribuční funkce (marginal distribution function) F 1 (x) = lim y F (x, y); marginální hustota (marginal density function) f 1 (x) = R n k f(x, y) dy, y Rn k ; marginální pravděpodobnostní funkce (marginal mass) p 1 (x) = y p(x, y). Závislost a nezávislost Náhodné veličiny X a Y jsou nezávislé, právě když jsou nezávislé náhodné jevy (X x) a (Y y) pro každé x, y R. Odtud dostaneme ekvivalentní podmínky pro sdružené a marginální charakteristiky: 5
F (x, y) = F 1 (x).f 2 (y), (x, y) R 2 ; f(x, y) = f 1 (x).f 2 (y), (x, y) R 2 ; p(x, y) = p 1 (x).p 2 (y), (x, y) R 2. Náhodné veličiny, které nejsou nezávislé jsou závislé. Číselné charakteristiky a charakteristická funkce. Pro chování náhodné veličiny mají v řadě případů význam některé číselné charakteristiky, které často souvisí s hodnotami parametrů, které se v popisu hustoty či pravděpodobnostní funkce vyskytují. Uveďme základní z nich a současně připomeneme jejich názvy a značení. Charakteristiky polohy Je-li X náhodná veličina, která je popsána hustotou f, resp. pravděpodobnostní funkcí p, či obecně distribuční funkcí F, pak pro ni definujeme: Střední hodnotu (mean, average value) náhodné veličiny X jako E(X) = µ 1(X) = µ 1, předpisem E(X) = xf(x) dx, resp. E(X) = x R xp(x), obecně tedy E(X) = x R x [F (x) F (x )] + xf (x) dx, pokud existují. Charakteristiky variability Rozptyl (variance) náhodné veličiny X jako D(X) = µ 2 (X) = µ 2, předpisem D(X) = E[(X E(X)) 2 ] = E(X 2 ) [E(X)] 2. Směrodatnou odchylku (standard deviation) σ(x) = σ = D(X). Momenty (moments) náhodné veličiny X k tý obecný moment (k-th moment) µ k(x) = µ k = E(X k ), k = 0, 1,.... 6
k tý centrální moment (k-th central moment) µ k (X) = µ k = E[(X E(X)) k ], k = 0, 1,.... Je tedy µ 0 = µ 0 = 1, µ 1 = 0, µ 1 = E(X), µ 2 = D(X) a µ k = k i=0 k ( 1) i µ i k i (µ 1) i. Koeficient šikmosti (skewness)α(x) = α = µ 3(X) (σ(x)) 3. Koeficient špičatosti (kurtosis)ε(x) = ε = µ 4(X) (σ(x)) 4 3. y α > 0 α = 0 α < 0 x Význam koeficientu šikmosti y ε > 0 ε = 0 ε < 0 x Význam koeficientu špičatosti Poznámka: Tyto koeficienty se používají k podrobnějšímu popisu rozdělení pravděpodobnosti. Pro symetrické rozdělení je koeficient šikmosti α(x) = 0. Je-li α(x) > 0, pak je rozdělení vychýlené vpravo, pro α(x) < 0 je vychýlené vlevo. Při hodnotě α(x) > 0 se s větší pravděpodobností vyskytují hodnoty vzdálenější od střední hodnoty vpravo, při opačné hodnotě 7
α(x) < 0 vlevo. Situace je na obrázku. Pro normální rozdělení je koeficient špičatosti ε(x) = 0. Rozdělení, pro které je ε(x) > 0 je hustota více koncentrována ke střední hodnotě než normální rozdělení a pro ε(x) < 0 je průběh hustoty plošší než je průběh hustoty normálního rozdělení. Někdy se v koeficientu špičatosti vynechává člen 3 a pak je pro normální rozdělení roven koeficient 3. Je-li X náhodná veličina, pak pro reálnou hodnotu proměnné t definujeme náhodnou veličinu e jtx předpisem: X = x e jtx = e jtx = cos tx + j sin tx, t R. Střední hodnota této náhodné veličiny je funkcí proměnné t R a nazýváme jí charakteristickou funkcí (charakteristic function) náhodné veličiny X. Označujeme ji symbolem ψ X (t) = E(e jtx ), t R. Pro charakteristickou funkci platí, že má tolik derivací v bodě t = 0, kolik má náhodná veličina momentů a ψ (k) X (0) = j k µ k(x) = j k E(X k ), k = 0, 1,.... Jestliže má náhodná veličina X momenty do určitého řádu, pak můžeme napsat Taylorův polynom charakteristické funkce. Jestliže použijeme proměnné (jt) místo t dostaneme ψ X (t). = 1 + n i=1 µ i i! (jt)i. Potom funkce φ X (t) = ln ψ X (t) má také derivace v bodě t = 0 a jestliže označíme její Taylorův rozvoj v bodě t = 0 φ X (t). = n i=1 k i i! (jt)i, pak koeficienty k i nazýváme kumulanty (cumulants) a platí pro ně: k 1 = µ 1 = E(X). k 2 = µ 2 (µ 1) 2 = µ 2 = D(X). k 3 = µ 3 3µ 1µ 2 + 2(µ 1) 3 = µ 3. k 4 = µ 4 3(µ 2) 2 4µ 1µ 3 + 12(µ 1) 2 µ 2 6(µ 1) 4 = µ 4 3µ 2 2. Dále je 8
α = k 3 k 3/2 2, ε = k 4 k2 2. Kvantily (quantiles) jsou další z číselných charakteristik, které používáme k popisu rozdělení náhodné veličiny. Uveďme nejprve jeho definici v nejjednodušším případě, který se nám nejčastěji v aplikacích vyskytuje. Je-li X náhodná veličina, která má spojité rozdělení a nabývá hodnot z intervalu (a, b) taková, že je její distribuční funkce F rostoucí v intervalu (a, b), pak pro číslo 0 < p < 1 je její p kvantil (p-quantile), či 100p% kvantil x p definován vztahem P (X x p ) = p F (x p ) = p x p = F 1 (p), tedy p = xp f(t) dt. x p f(x) x p x p F (x) x Obr. 1.1 Obr. 1.2. V obecném případě je kvantil definován vztahem F (x p +) = F (x p ) p, F (x p ) p. Poznamenejme, že pro diskrétní rozdělení a pro spojitá rozdělení, která nemají rostoucí distribuční funkci není kvantil určen jednoznačně. Obvykle v tomto případě uvažujeme jako jeho hodnotu největší z hodnot, které splňují požadovanou podmínku. Některé z kvantilů mají výsadní postavení. Mají zvláštní názvy a jejich hodnoty bývají pro řadu rozdělení tabelovány. Nazýváme: x = x 0,5 -kvantil jako medián (median); x 0,25 -kvantil jako dolní kvartil (lower quantile); x 0,75 -kvantil jako horní kvartil (upper quantile). Používáme ješte kvantily x 0,1 a x 0,9 (decile) při ořezávání souborů a kvantily x 0,95, x 0,975 a x 0,99 při testování hypotéz. 9
V některých aplikacích se používají tzv. písmenkové kvantily, kde se škála (0, 1) dělí postupně na poloviční délky intervalů, tedy 1/2, 1/4, 1/8 Používáme pak písmen: M medián x 0,5 ; F kvartily F D = x 0,25, F H = x 0,75 ; E oktily E D = x 0,125, E H = x 0,875 ; D sedecily D D = x 1/16, D H = x 15/16. Jako charakteristika variability se také používá mezikvartilové rozpětí (interquartile range) IQR = R F = x 0,75 x 0,25. Jako charakteristika šikmosti se někdy používá (x 0,75 x 0,5 ) (x 0,5 x 0,25 ) = F H + F D 2M R F. x 0,75 x 0,25 Modus (mode) ˆx je další číselnou charakteristikou, pomocí níž popisujeme chování náhodné veličiny. Je definován tak, že je to hodnota, pro kterou je hustota či pravděpodobnostní funkce největší. Odpovídá tedy hodnotě, které nabývá náhodná veličina nejčastěji. Náhodná veličina může mít i víc módů. Vypovídací hodnota této charakteristiky je malá, používá se jako doplňková k ostatním. Charakteristiky závislosti Pro popis závislosti používáme koeficient kovariance cov(x, Y ) (covariation), častěji ale koeficient korelace ρ(x, Y ) (coefficient of linear correlation, které jsou definovány pro náhodné veličiny X a Y vzorci cov(x, Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y ), ρ(x, Y ) = cov(x, Y ) D(X)D(Y ) Je pak: ρ(x, X) = D(X), 1 ρ(x, Y ) 1, Jsou-li náhodné veličiny X a Y nezávislé, pak ρ(x, Y ) = 0 a pro ρ(x, Y ) 0 jsou náhodné veličiny X a Y závislé. Pro normální rozdělení platí ekvivalence. Pouze pro lineární závislost Y = ax + b je ρ(x, Y ) = sgn a. Kovarianční a korelační matice dostaneme pro náhodný vektor (X 1, X 2,..., X n ) a jsou definovány jako Σ = (σ ij ), σ ij = cov(x i, X j ), ρ = (ρ ij ), ρ ij = ρ(x i, X j ). Matice jsou symetrické a na diagonále jsou kladná čísla, resp. 1. 10