8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) e, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá normované normální rozdělení. V dalším textu budeme náhodnou veličinu, která má rozdělení N(0; ) obvykle označovat písmenem U. Její hustota je pak ( ) = e x, x (, ). Distribuční funkci rozdělení N(0; ), která je definovaná vztahem ( ) Φ(x) = x e t dt, x (, ), budeme vždy označovat symbolem Φ. Graf hustoty ϕ normovaného normálního rozdělení N(0; ) znázorníme na obrázku Obr. 8. a graf distribuční funkce Φ je znázorněn na obrázku Obr. 8.. Φ(x) 3 0 3 x 3 0 3 x Obr. 8. Obr. 8. Poznámka: Normované normální rozdělení N(0; ) je symetrické kolem nuly a tedy = ϕ( x). Je tudíž E(X) = 0 a dále je D(X) =. Odtud plyne, že pro distribuční funkci Φ platí: Φ(x) + Φ( x) = Φ( x) = Φ(x) a Φ(0) = 0, 5. Obecné normální rozdělení N(µ; ) je posunuté o hodnotu µ, je tedy symetrické vzhledem k této hodnotě. Je E(X) = µ a D(X) =. Směrodatná odchylka (X) =. Rozdělení je koncentrováno ke střední hodnotě. I když nabývá náhodná veličina s tímto rozdělením teoreticky všech reálných hodnot je P ( X µ < 3) = 0, 999 a P ( X µ < 3, 5) = 0, 9999. Poznámka: Normální rozdělení si zachovává svůj charakter při lineární transformaci. Platí totiž následující tvrzení. 33
8.. Věta: Jestliže má náhodná veličina X rozdělení N(µ, ), má pak náhodná veličina Y = X +β rozdělení N(µ+β, ). Speciálně platí, že náhodná veličina U = X µ má normované normální rozdělení N(0, ). Důkaz: Je-li X náhodná veličina, která má rozdělení N(µ, ) a je-li f její hustota a F je její distribuční funkce, pak pro hustotu g a distribuční funkci G náhodné veličiny Y platí: G(y) = P (Y y) = P (X + β y) = P (X y β) = P (X y β = ) = F ( y β ) > 0 P (X y β ) = F ( y β ), < 0. Potom pro hustotu g rozdělení náhodné veličiny Y dostaneme: g(y) = G (y) = = d dy d dy e ( F ( y β )) = ( f(y β F ( y β ( y β µ) = ) )) = f(y β ) (y (µ+β)) e (). To je ovšem hustota normálního rozdělení N(µ + β; () ). = f(y β ) = Jestliže zvolíme = a β = µ dostaneme µ+β = 0 a =. Náhodná veličina U má tudíž normované normální rozdělení N(0; ). Poznámka: Transformace na normované rozdělení. Jestliže má náhodná veličina X normální rozdělení N(µ; ), pak má náhodná veličina U = X µ X = U + µ normované normální rozdělení N(0; ). Pro její distribuční funkci F a hustotu f platí: a Je tedy ( ) x µ F (x) = Φ F (u + µ) = Φ(u) f(x) = ( ) x µ ϕ f(u + µ) = ϕ(u). ( ) ( ) b µ a µ P (a < X < b) = F (b) F (a) = Φ Φ, kde hodnoty funkce Φ odečteme z tabulek hodnot distribuční funkce Φ. 8.3. Kvantily normálního rozdělení. Pro kvantily u p normovaného normálního rozdělení N(0; ) platí, že: Φ(u p ) = p, 0 < p < u p = Φ (p) 34
a jejich hodnoty nalezneme v tabulkách kvantilů. Všimneme si, že platí: Pro kvantily x p u 0,5 = 0 a u p = u p. obecného normálního rozdělení N(µ; ) platí: ( ) xp µ F (x p ) = p Φ = p x p µ = u p x p = u p + µ. Odtud plyne, že medián x = x 0,5 = ˆx = E(X) = µ je zároveň modus. Význam kvantilů si znázorníme na obrázku hustoty ϕ a distribuční funkce Φ normovaného normálního rozdělení. Obsah obrazce vyznačeného šrafováním je roven p. p Φ(x) 0, 5 3 0 u p 3 x 3 0 u p 3 x Obr. 8.3 Obr. 8.4 8.4. Výpočet distribuční a kvantilové funkce normálního rozdělení. I. Přímý výpočet hustota: = e x, x R; pro rozdělení s parametry µ, je : distribuční funkce: f(x) = ( ) x µ f, x R; Φ(x) = x pro rozdělení s parametry µ, je : e t dt, x R; ( ) x µ F (x) = Φ, x R; kvantilovou funkci dostaneme jako řešení rovnice: Φ(u p ) = p, x p = µ + u p, 0 < p <. 35
kde II. Pomocí aproximace distribuční funkce: ( ) a) Φ(x) = + erf ( x ), x R, kde erf (x) = x e t dt, x R. π b) pro x 0 je: 0 Φ(x). = 5 k= a k w k, w = + a 0 x, a 0 = 0, 3 64 9, a = 0, 39 38 5, a = 0, 356 563 8, a 3 =, 78 478, a 4 =, 8 56, a 5 =, 330 74 Pro x 0 je Φ(x) = Φ( x). Pro x 6 je Φ(x) =. Maximální chyba aproximace je menší než 0 6. kvantilová funkce: pro 0 < p je a k w k kde Φ (p) = u p. = w + k=0 3 k=0 b k w k, w = lnp, a 0 =, 55 57, a = 0, 80 853, a = 0, 00 38 b 0 =, b =, 43 788, b = 0, 89 69, b 3 = 0, 00 308 Pro < p < je u p = u p. Přesnost aproximace je 0, 000 45 pro 0, 999 < P < 0, 999. III. V programu MAPLE with(stats) : = statevalf[pdf, normald](x); f(x) = statevalf[pdf, normald[µ, ]](x); Φ(x) = statevalf[cdf, normald](x); F (x) = statevalf[cdf, normald[µ, ]](x); u p = Φ (p) = statevalf[icdf, normald](p); x p = F (p) = statevalf[icdf, normald[µ, ]](p). 8.5. Intervaly spolehlivosti. Ve statistice se setkáváme s úlohou, kdy potřebujeme k dané pravděpodobnosti určit interval, ve kterém se hodnota náhodné veličiny vyskytuje. Vyřešíme tuto úlohu pro normované normální rozdělení. Pro jiná rozdělení se princip řešení zachová, jenom hraniční hodnoty hledaného intervalu se určí z kvantilů odpovídajícího rozdělení. 8.6. Příklad: K danému číslu, 0 < <, určete interval tak, aby pro náhodnou veličinu U, která má normované normální rozdělení N(0; ) platilo: 36
a) ( ) P ( U < a) = ; b) ( ) P (U < a) = ; c) ( ) P (U > a) =. Řešení: a) Z podmínky vyplývá = P ( a < U < a) = = Φ(a) Φ( a) = Φ(a) ( Φ(a)) = Φ(a) Φ(a) =. Odtud plyne, že a = u kvantil. Je tedy a < U < a u < U < u. b) Obdobně jako v a) dostaneme = P (U < a) = Φ(a) a = u. Je tedy U < a U < u. c) Z podmínky pro interval plyne = P (U > a) = Φ(a) Φ(a) = a = u. Je tedy U > a U > u. Poznámka: Číslo volíme malé, obvykle 0 < 0, a číslo se nazývá koeficient spolehlivosti (konfidenční koeficient). Získaný interval nazýváme 00( ) procentním intervalem spolehlivosti. Interval ( ) je oboustranný interval, intervaly ( ) a ( ) jsou jednostranné.první je pravostranný a druhý levostranný. Jsou to intervaly, ve kterých se hodnota náhodné veličiny bude vyskytovat s pravděpodobností ( ), tedy ve 00( )% případech. 3 0 3 x 3 0 3 x u u u Obr. 8.5 Obr. 8.6 3 0 3 x u Obr. 8.7. 8.7. Sčítání náhodných veličin. Náhodnou veličinu Z, která je definována pomocí náhodných veličin X a Y tak, že X = x, Y = y Z = x + y nazýváme součtem náhodných veličin X a Y a značíme ji Z = X + Y. Obdobně definujeme i jiné funkce náhodných veličin. Později ukážeme, že platí: E(X + Y ) = E(X) + E(Y ) 37
a pro nezávislé náhodné veličiny i D(X + Y ) = D(X) + D(Y ). V případě nezávislých náhodných veličin, které mají normální rozdělení ještě platí: 8.8. Věta: Jsou-li X, resp. Y nezávislé náhodné veličiny s normálními rozděleními N(µ, ), resp. N(µ, ), pak má náhodná veličina X + Y normální rozdělení s parametry N(µ + µ, + ). 8.9. Náhodný výběr. Ve statistice zpracováváme data, která jsou souborem výsledků náhodného pokusu. Soubor dat je tedy realizací uspořádané n tice náhodných veličin {X, X,..., X n }. Všechny náhodné veličiny mají shodné rozdělení a jsou na sobě nezávislé. Takovou uspořádanou n tici náhodných veličin nazýváme prostým náhodným výběrem z daného rozdělení. Z vět 8.8 a 8. vyplývá toto tvrzení. 8.0. Věta: Jestliže mají nezávislé náhodné veličiny X i, i n normální rozdělení N(µ, ) (náhodný výběr z normálního rozdělení), má pak výběrový úhrn X = n X i normální rozdělení N(nµ, n ) i= n X i i= a výběrový průměr X = normální rozdělení N(µ, ). n n Poznámka: K terminologii: O náhodné veličině, která je funkcí náhodného výběru mluvíme jako o statistice. Častou úlohou je nalezení vhodné statistiky, z jejíchž hodnot můžeme odvodit vlastnosti sledovaného rozdělení. Z vlastností normálního rozdělení vidíme, že statistika X, výběrový průměr je dobrým odhadem střední hodnoty µ, neboť při dostatečně rozsáhlém výběru, velké hodnotě n, se bude hodnota X jen velmi málo lišit od střední hodnoty µ. Centrální limitní věty Uvedeme dvě formulace tzv. centrálních limitních vět, které mají obdobný charakter jako věta 8.8. 8.. Věta: Čebyševův zákon velkých čísel. Je-li {X, X,...} posloupnost nezávislých náhodných veličin, pro které je E(X i ) = µ a D(X i ) C, pak pro Y n = n X n i a každé číslo ε > 0 je i= lim P ( Y n µ > ε) = 0, lim n n P ( Y n µ < ε) =. 8.. Věta: Lindeberg, Lévy Je-li {X, X,...} posloupnost nezávislých náhodných veličin, pro které je E(X i ) = µ a D(X i ) =, pak pro náhodnou veličinu je ξ n = n n i= ( ) Xi µ lim P (ξ n x) = Φ(x), n kde Φ je distribuční funkce normovaného normálního rozdělení N(0, ). Důsledky: Je-li {X, X,..., X n } prostý náhodný výběr z rozdělení, pro které je E(X i ) = µ a D(X i ) =, pak má v limitě výběrový úhrn X normální rozdělení 38
N(nµ; n) a výběrový průměr X normální rozdělení N(µ, ). Je tedy n ( X lim P nµ n n x ) = Φ(x), x R, ( ) X µ lim P n x = Φ(x), x R. n Binomické rozdělení Bi(n; p) je úhrnem alternativního rozdělení, pro které je E(X i ) = p a D(X i ) = p( p). Centrální limitní věta je Moivre-Laplaceova věta, která byla první z vět tohoto charakteru. 8.3. Věta: Moivre - Laplace Jestliže má náhodná veličina X binomické rozdělení Bi(n; p), pak tedy lim P n np( X np p) x = Φ(x), x R, P (a < X < b) = = Φ b np Φ a np. np( p) np( p) Poznámka: Aproximace je jako dobré náhrady možné použít jsou-li splněny podmínky np 5 a n( p) 5. Poissonovo rozdělení Jestliže má náhodná veličina X Poissonovo rozdělení P o(λ), pak Je tedy lim P λ ( X λ λ P (a < X < b) = Φ x ) = Φ(x), x R. ( ) ( ) b λ a λ Φ. λ λ 39