Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D.
Príklad Předpokládejme že máme náhodnou veličinu X která má hustotu pravděpodobnosti definovanou takto: f(x) = 1 x (a, b) b a 0 x jinak Distribuční funkci získáme snadno jako F(x) = x f(t)dt = x 1 b a dt = 0 x a x a a x < b b a 1 x b Necht pro naší X platí a = 0 b = 2. Pak tedy:
Príklad a F(x) = x f(x) = f(t)dt = x 1 x (0, 2) 2 0 x jinak 1 2 dt = 0 x 0 x 2 0 x < 2 1 x 2
Střední hodnota náhodné veličiny Nejčastěji používanou číselnou charakteristikou polohy je první obecný moment, který se nazývá střední hodnota náhodné veličiny X. Budeme jej označovat symbolem E(X). Pro diskrétní náhodnou veličinu X, x [a; b] s pravděpodobnostní funkcí P(X = x) je E(X) definována jako: E(X) = n i=1 x i P(X = x i ) = n i=1 x i p i. Pro spojitou náhodnou veličinu X s hustotou pravděpodobnosti f(x) je E(X) definována jako: E(X) = b a xf(x)dx.
Rozptyl náhodné veličiny Popis polohy je třeba často doplnit o informaci, jak se rozptylují jednotlivé hodnoty náhodné veličiny kolem nějaké charakteristiky polohy (nejčastěji kolem střední hodnoty). Tuto informaci podávají charakteristiky variability. Mezi ně patří rozptyl D(X). Ten je stanoven jako druhý centrální moment: D(X) = E{[X E(X)] 2 } V případě diskrétní náhodné veličiny X je definován jako: D(X) = n i=1 [x i E(X)] 2 p i. V případě spojité náhodné veličiny X je definován jako: D(X) = b [x i E(X)] 2 f(x)dx. a
Příklad Předpokládejme, že náhodná veličina X popisující podíl jisté reklamní společnosti na tuzemském trhu, během jistého týdne, může být popsána následující hustotou pravděpodobnosti: f(x) = 3 2 (1 x2 ) 0 x 1 0 jinak Určeme: Distribuční funkci, střední hodnotu, medián, a rozptyl. Distribuční funkce F(x) = x 0 3 2 (1 y2 )dy = 3 [ [y] x y 2 0 3 ]x 0 = 3 2 [ x x3 3 ].
Příklad Střední hodnota: E(X) = 1 0 x 3 2 (1 x2 )dx = 3 2 [ x 2 2 ]1 0 [ x 4 4 ]1 0 = 3 8. Rozptyl: K výpočtu rozptylu naší náhodné veličiny X využijeme známého vzorce D(X) = E(X 2 ) [E(X)] 2. E(X 2 ) = 1 0 x 23 2 (1 x2 )dx = 3 2 [ x 3 3 ]1 0 [ x 5 5 ]1 0 = 1 5.
Příklad Pak již jednoduše: D(X) = 1 [ ] 3 2 5 = 1 8 5 9 64 = 19 320 = 0, 05937.
Bernoulliho rozdělení Bern(π) Někdy také Alternativní rozdělení. Pomocí tohoto rozdělení lze popsat ty situace, ve kterých může náhodná proměnná nabývat pouze dvou možných hodnot. Příkladem může být hod ideální mincí. Bernoulliho rozdělení je definováno pomocí parametru π. Tento parametr lze interpretovat jako pravděpodobnost zdaru. Pravděpodobnostní funkce Bernoulliho rozdělení je definována takto f(x; π) = (1 π) pokud x = 0 π pokud x = 1.
Bernoulliho rozdělení Bern(π) Pravděpodobnostní funkci pro Bernoulliho rozdělení lze zapsat ekvivalentně jako: P(X = x) = π x (1 π) (1 x). Distribuční funkci tohoto rozdělení pak zapíšeme jako F(x; π) = (1 π) pokud x = 0 1 pokud x = 1. Střední hodnota náhodné veličiny sledující Bernoulliho rozdělení je dána hodnotou π, rozptyl takové veličiny pak hodnotou π(1 π). Symbolickým zápisem X Bern(π), říkáme, že náhodná veličina X sleduje Bernoulliho rozdělení s parametrem π.
Binomické rozdělení Bi(n; π) Pokud budeme opakovat n-krát určitý pokus při dodržení stejných podmínek, přičemž v každém pokusu bude moci nastat náhodný jev A, se stejnou pravděpodobností π a naopak nenastat s pravděpodobností 1 π, pak takové schéma pokusů nazýváme Bernoulliho schéma pokusů. Počet realizací jevu A v n nezávislých pokusech Bernoulliho schematu je zřejmě diskrétní náhodnou veličinou s definičním oborem {0, 1,..., n}. Vzhledem k tomu, že jsou tyto pokusy navzájem nezávislé lze psát: P(X = x) = ( n x ) π x (1 π) n x.
Binomické rozdělení Bi(n; π) Střední hodnotu lze pak určit jako: E(X) = E(X 1 ) + E(X 2 ) +... + E(X n ) = nπ. Pro rozptyl pak D(X) = D(X 1 ) + D(X 2 ) +... + D(X n ) = nπ(1 π).
Bi(n, p) P(x) 0.00 0.05 0.10 0.15 0.20 0 10 20 30 40 x
Multinomické rozdělení - mimo soutěž Multinomické rozdělení je zobecněním binomického rozdělení pro p-rozměrnou náhodnou veličinu X = (X 1, X 2,..., X p ) se sdruženou pravděpodobnostní funkcí P(X 1 = x 1 ; X 2 = x 2,..., X p = x p ) = n! x 1!x 2!, x p! πx 1π x 2 π x p a kde x i = 0, 1, 2,..., n. Zároveň platí p i=1 x i = n a p i=1 π i = 1.
Poissonovo rozdělení P o(λ) V některých případech není počet událostí výsledkem předem stanoveného počtu zkoušek. Vhodný pravděpodobnostní model pak představuje Poissonovo rozdělení. Poissonovo rozdělení má pouze jeden jediný parametr a tím je λ, který udává jak střední hodnotu tak rozptyl. Maximálně věrohodným odhadem parametru λ je prostý aritmetický průměr. Pokud náhodná veličina X sleduje Poissonovo rozdělení s parametrem λ, pak píšeme X P o(λ).
Poissonovo rozdělení P o(λ) Poissonova pravděpodobnostní funkce je definována takto f(x; λ) = P(X = x; λ) = e λ λ x x! Distribuční funkce pak jako x e λ λ z F(x; λ) = z! z=0
Po(2) P(x) 0.00 0.05 0.10 0.15 0.20 0.25 0 5 10 15 x
Hypergeometrické rozdělení H(M; N; n) Náhodná veličina X má hypergeometrické rozdělení s parametry N, M, n, jestliže má definovanou pravděpodobnostní funkci následujícím způsobem: P(X = x) = ( M x )(N M n x ) ( N n ) pokud x max(0, M N + n); min(m, n) 0 jinak. Přičemž N, M, n a x jsou přirozená čísla, pro která platí n M N a 1 n N. Uvědomte si, že faktoriály jsou definovány pouze pro nulu a přirozená čísla: n! = n (n 1) (n 2) 2 1 0! = 1
Hypergeometrické rozdělení H(M; N; n) Pro malá n/n přibližně pro n/n 0, 1 lze hypergeometrické rozdělení aproximovat binomickým rozdělením s parametrem π = M/N. V případě, že je n/n a M/N malé a n velké, řekněme n/n 0, 1, M/N 0, 1 a n > 30, lze hypergeometrické rozdělení aproximovat tzv. Poissonovým rozdělením s parametrem λ = nm/n.
Vícerozměrné hypergeometrické rozdělení - mimo hru Vícerozměrné hypergeometrické rozdělení je rozdělení náhodného vektoru X = (X 1, X 2,..., X p ) se sdruženou pravděpodobnostní funkcí kde P(X 1 = x 1 ; X 2 = x 2,..., X p = x p ) = ( M1 )( ) ( ) M2 x 1 x Mp 2 x ( ) p N, n x i = max[0; M i N + n],..., min[m i ; n] a dále p i=1 x i = n a π i=1 M i = N.
Co Vám to připomíná?
Normální rozdělení N(µ; σ 2 ) Patří mezi nejdůležitější spojitá rozdělení náhodných veličin. Má zásadní význam jak v statistické teorii, tak i v aplikacích. Lze říci, že tímto rozdělením lze popsat jevy, na jejichž koĺısání má vliv velký počet nepatrných a vzájemně nezávislých vlivů. Hustota pravděpodobnosti tohoto rozdělení je dána funkcí: f(x µ; σ 2 ) = 1 (x i µ) 2 σ 2π e 2σ 2 pro x i (, ) Normální rozdělení je symetrické kolem své střední hodnoty, která je současně mediánem i modem.
Normalni rozdeleni dnorm (x) 0.0 0.2 0.4 0.6 0.8 6 4 2 0 2 4 6 x
Standardizace Pokud bychom hodnoty náhodné veličiny X s normálním rozdělením vhodně transformovali resp. normovali, pak bychom získali náhodnou veličinu U jejíž rozdělení bylo opět normální, resp. normální normované rozdělení, s jednotkovým rozptylem a nulovou střední hodnotu. Náhodnou veličinu U získáme transformací náhodné veličiny X N(µ; σ 2 ) takto: U = X E(X) D(X) = X µ σ Rozdělení N(0; 1) se nazývá normálním normovaným rozdělením.
Každé normální rozdělení, lze transformovat, na normální normované rozdělení. Hustotu normovaného normálního rozdělení důsledně označujeme symbolem ϕ(x). Distribuční funkci rozdělení N(0, 1) důsledně označujeme prostřednictvím symbolu φ(x). Tabulky hustoty pravděpodobnosti spolu s distribuční funkcí jsou sestaveny většinou pro nezáporné hodnoty normované veličiny U. Hodnoty pro x < 0 plynou ze vztahů ϕ( x) = ϕ(x) φ( x) = 1 φ(x)
Pojem: α100%ní kvantil Ve statistice je velmi důležitý pojem kvantilu. Kvantilem, resp. α100%-ním kvantilem náhodné veličiny X, která má jisté spojité rozdělení náhodné veličiny s distribuční funkcí F(x) a hustotu pravděpodobnosti f(x), je číslo x α pro které platí F(x α ) = P(X x α ) = x α f(x)dx = α. Alfa procentní kvantil normálního normovaného rozdělení N(0; 1) označujeme prostřednictvím symbolu u α. Pro normální normované rozdělení platí u α = u 1 α.
5% kvantil normálního normovaného rozdělení - u 0,05 Normal Distribution mu = 0, sigma = 1 Probability Density P( X < 1.644854 ) = 0.05 P( X > 1.644854 ) = 0.95 4 2 0 2 4 3 2 1 0 1 2 3
50% kvantil normálního normovaného rozdělení - u 0,50 Normal Distribution mu = 0, sigma = 1 Probability Density P( X < 0 ) = 0.5 P( X > 0 ) = 0.5 4 2 0 2 4 3 2 1 0 1 2 3
95% kvantil normálního normovaného rozdělení - u 0,95 Normal Distribution mu = 0, sigma = 1 Probability Density P( X < 1.644854 ) = 0.95 P( X > 1.644854 ) = 0.05 4 2 0 2 4 3 2 1 0 1 2 3
Tabulky rozdělení N(0; 1) Tabelované Hodnoty pro N(0; 1) vyjadřující P (X x) 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0 0,500 0,504 0,508 0,512 0,516 0,520 0,524 0,528 0,532 0,536 0,1 0,540 0,544 0,548 0,552 0,556 0,560 0,564 0,568 0,571 0,575 0,2 0,579 0,583 0,587 0,591 0,595 0,599 0,603 0,606 0,610 0,614 0,3 0,618 0,622 0,626 0,629 0,633 0,637 0,641 0,644 0,648 0,651 0,4 0,655 0,659 0,663 0,666 0,670 0,674 0,677 0,681 0,684 0,687 0,5 0,696 0,695 0,699 0,702 0,705 0,709 0,712 0,716 0,719 0,722 0,6 0,725 0,729 0,732 0,736 0,739 0,742 0,745 0,749 0,752 0,754 0,7 0,758 0,761 0,764 0,767 0,770 0,773 0,776 0,779 0,782 0,785 0,8 0,788 0,791 0,794 0,797 0,800 0,802 0,805 0,808 0,811 0,813 0,9 0,816 0,817 0,821 0,824 0,826 0,829 0,832 0,834 0,837 0,838 1 0,841 0,844 0,846 0,849 0,851 0,853 0,855 0,858 0,860 0,862 1,1 0,864 0,867 0,869 0,871 0,873 0,875 0,877 0,879 0,881 0,88 1,2 0,885 0,887 0,889 0,891 0,893 0,894 0,896 0,898 0,900 0,901 1,3 0,903 0,905 0,907 0,908 0,910 0,912 0,913 0,915 0,916 0,917 1,4 0,919 0,921 0,922 0,924 0,925 0,927 0,928 0,929 0,931 0,931 1,5 0,933 0,935 0,936 0,937 0,938 0,939 0,941 0,942 0,943 0,944 1,6 0,945 0,946 0,947 0,948 0,9495 0,9505 0,952 0,953 0,954 0,954 1,7 0,955 0,956 0,957 0,958 0,959 0,960 0,961 0,962 0,963 0,963 1,8 0,964 0,965 0,966 0,966 0,967 0,968 0,969 0,969 0,970 0,970 1,9 0,971 0,972 0,973 0,973 0,974 0,974 0,975 0,976 0,976 0,976
Chi kvadrát rozdělení χ 2 (v) Uvažujme navzájem v nezávislých náhodných veličin U 1, U 2,, U v, z nichž každá má normované normální rozdělení. Potom rozdělení součtu čtverců těchto náhodných veličin má χ 2 rozdělení. Tedy χ 2 = v Ui 2 i=1 Součet čtverců v vzájemně nezávislých normovaných normálních náhodných veličin má hustotu pravděpodobnosti danou předpisem f(x) = 1 )e χ2 22Γ( v 2 v 2 (χ2 ) 2 v 1, χ 2 > 0 0, χ 2 0 Parametr v se nazýváme počtem stupňů volnosti. V našem případě mluvíme o χ 2 rozdělení o v stupních volnosti, které značíme χ 2 (v). Distribuční funkce tohoto rozdělení je definována
Chi kvadrát rozdělení χ 2 (v) rovnicí F (x) = 1 χ 2 22Γ( v 2 v ) 0 e 2t t v 2 1 dt, χ 2 > 0 0, χ 2 0 Charakteristiky tohoto rozdělení jsou E(χ 2 ) = v D(χ 2 ) = 2v. Frekvenční funkce χ 2 rozdělení je asymetrická. Její průběh závisí na počtu stupňů volnosti. S rostoucím v se χ 2 rozdělení bĺıží normálnímu rozdělení N(v, 2v). Pokud v > 30 lze toto rozdělení aproximovat normovaným normálním rozdělením.
Studentovo nebo také t-rozdělení t(n) Jedním z nejčastěji využívaným rozdělením je tzv. Studentovo rozdělení. Lze jej definovat pomocí dvou nezávislých náhodných veličin U a χ 2, které mají po řadě N(0, 1) a χ 2 (v) rozdělení. Náhodná veličina t kde ta je definována jako t = má hustotu pravděpodobnosti f(u; χ 2 ) = 1 2π e u2 2 U χ 2 v 1, (1) 2 v 2Γ( v 2 )e χ 2 2 (χ 2 ) v 2 1 (2) kde < u < a χ 2 > 0. Počet stupňů volnosti veličiny χ 2 ve jmenovateli veličiny t určuje počet stupňů volnosti Studentova rozdělení.
Studentovo nebo také t-rozdělení t(n) Rozdělení t při rostoucím počtu stupňů volnosti rychle konverguje k normálnímu rozdělení. Pro v > 30 lze nahradit Studentovo rozdělení normálním normovaným rozdělením. Studentovo rozdělení je symetrické jednovrcholové. Vzhledem k symetrii platí: t α (v) = t 1 α (v)
Fisherovo-Snedecorovo rozdělení F (v 1 ; v 2 ) Dalším hojně využívaným rozdělením je Fisherovo-Snedecorovo rozdělení. Lze jej definovat prostřednictvím dvou nezávislých náhodných veličin které pocházejí z Chi-kvadrát rozdělení s v 1 resp. v 2 stupni volnosti. Náhodná veličina F je definována takto: F = χ 2 1 v 1 χ 2. 2 v 2 Rozdělení s touto hustotou pravděpodobnosti se nazývá Fisherovo- Snedecorovo rozdělení či F rozdělení o v 1 a v 2 stupních volnosti.
Fisherovo-Snedecorovo rozdělení F (v 1 ; v 2 ) Symbolicky se zapisuje jako F (v 1, v 2 ). Uvědomte si, že zde záleží na pořadí stupňů volnosti v 1, v 2. Nicméně platí vztah F α (v 1, v 2 ) = 1 F 1 α (v 2, v 1 ) Rozdělení F se při velkých počtech stupňů volnosti bĺıží k rozdělení normálnímu, ale dosti pomalu. Toto rozdělení je asymetrické.