Charakterizace rozdělení

Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K

μ = E ( X ) = xf ( x) dx + Speciální momenty Střední hodnota: (matematické očekávání) M 1 = E(X) = μ První centrální moment C 1 = 0 Rozptyl: C = D(X) = σ σ = D ( X ) = ( x μ) f ( x) dx + Šikmost: Třetí normovaný centrální moment Špičatost: Čtvrtý normovaný centrální moment Šikmost Špičatost f(x) f(x) 6 g 1 > 0 g 1 = 0 g 1 < 0 3 g X C 3( X ) 1( ) = σ * σ C4( X) g ( X) = σ * σ 1,8 x x

Vlastnosti střední hodnoty: E(X) M 1 (μ) Střední hodnota Konstanty A, B E(A X ± B) = A.E(X) ± B Nezávislé (X, Y) E(X ± Y) = E(X) ± E(Y) E(X*Y) = E(X)*E(Y) Korelované (X, Y), Míra závislosti vyjádřená kovariancí cov(x, Y) = E(X*Y) - E(X)*E(Y) E(X*Y) = E(X)*E(Y) + cov(x, Y) Centrování: X 0 = X - E(X) E(X 0 ) = 0 F 1 E( x) = Q( u) du 0 E(x) x Pro positivní X 0 platí E(X) = Q(u) du

Parametry polohy Módus: M 0 ~ Medián:. x 05... relativní maximum na hustotě pravděpodobnosti... 50%ní kvantil f(x) f(x) f(x) x M = x ~ = Ex 05 o, () M o ~, ~ 05 x 05, M o E(x) E(x) x x x Pro kladná x platí: ~ x = E( X) /( 1 α), pak maximálně ~ x 05. = E(X) α

Kvantilová metoda pro lognormální data Tří parametrové lognormální rozdělení f ( x) = 1 exp{ * π *(1 + σ * Y )* τ 1 σ [ln(1 + σ * Y )] } P i i + 0.3133σ 0.397 = N + 0.146 Parametr Y = x μ /τ x ( μ τ ) / σ Transformace z = ln[(1 + σ * Y ) vede na N(0,1) Pořádková statistika x (i) souvisí se standardizovanou normální 1/ σ ] pořádkovou statistikou z (i) exp( σ * z ( i) ) i) = μ + τ * σ 1 x ( μ + τ * g i ( σ ) g ( Pro známé σ je možné odhadnout parametry μ,τ jako směrnici a úsek regresní přímky x μ + τ * g ( ) ( i) i σ i σ ) = exp( σ * Φ σ 1 ( P i ) 1

Centrální tendence 0 1 3 4 5 6 7 8 9 10 0 1 3 4 5 6 7 8 9 10 1 14 Průměr= 5 Průměr= 6 0 1 3 4 5 6 7 8 9 10 0 1 3 4 5 6 7 8 9 10 1 14 Medián = 5 Medián = 5 0 1 3 4 5 6 7 8 9 10 11 1 13 14 Módus = 9 Není módus

Rozptyl ~ x0.5 μ σ Vlastnosti rozptylu: D(X) = C = σ D(X) = E((X - E(X)) = E(X - X E(X) + E(X) ) = E(X ) - E(X) Konstanty A, B Nezávislé (X, Y) Pro centrované X a Y D(A X ± B) = A D(X) D(X ± Y) = D(X) + D(Y) D(X Y) = D(X) D(Y) + E(X) D(Y) + E(Y) D(X) Lineárně korelované (X, Y) D(X ± Y) = D(X)+D(Y) + *cov (X, Y) D(X y) = D(X) D(Y) + E(X) D(Y) + E(Y) D(X) + E(X) E(Y) cov(x, Y) Pro libovolné A platí E[(X- A) ] D(X) Rozptyl je nezáporný σ 0 D( x) = [ Q( u) μ] du 1 0

Standardizace U = X 0 / [D(X)] = [X- E(X)] / [D(X)] Platí, že: 1. E(U) = 0 a D(U) = 1. f(x) = (1/σ) f(u) 3. F(x) = F(u) 4. Q(Z) = μ + σ Q 0 (Z), pro 0 Z<1

Parametry variability Směrodatná odchylka σ = [D(X)] Průměrná absolutní odchylka d = E[abs(X - E(X))] Obecně platí d D(X). Pro normální rozdělení: d / σ = / π Interkvartilová odchylka Obecně platí q [ σ ]. Pro normální rozdělení q 0.675 σ q =. *( ~ x ~ x ) 05 075. 05.

Příklady variability Rozpětí = 1-7 = 5 Rozpětí = 1-7 = 5 7 8 9 10 11 1 Data A 11 1 13 14 15 16 17 18 19 0 1 7 8 9 10 11 1 Průměr = 15.5 s = 3.338 Data B 11 1 13 14 15 16 17 18 19 0 1 Průměr = 15.5 s =.958

Aproximace rovnoměrným rozdělením 1 Koncentrace: K = * σ * 3 E(x), σ 0887. σ a b interval koncentrace Pro rovnoměrné rozdělení je μ = (a + b)/ σ = (b - a) /1 μ σ 3 μ μ+ σ 3

Variační koeficient Relativní mírou variability je variační koeficient V = σ / E(X) Vlastnosti variačního koeficientu: 1. V(A) = 0,. V(A X) = V(X) 3. V(X + Y) = V ( X) * E ( X) + V ( Y) * E ( Y) EX) ( + EY) (

Přehled sumarizace dat Sumární míry Centrální tendence Kvartily Variace Průměr Medián Módus Rozpětí Rozptyl Variační koeficient Geometrický průměr Směrodatná odchylka

Přehled měr variability Variace Rozptyl Směrodatná odchylka Variační Rozpětí Populační rozptyl Populační koeficient Výběrový rozptyl Výběrová Interkvartilové rozpětí

Popisné statistiky polohy Centrální tendence Průměr aritmetický: (Σx/n) Medián: Centrální bod (dělicí bod) Variace směrodatná odchylka šikmost náklon rozdělení špičatost délka konců Zešikmené vpravo Mode < Median < Mean Symetrické Mean = Median =Mode Zešikmené vlevo Mean < Median < Mode

Rozdělení součtu náhodných veličin

Centrální limitní věta Nechť X, jsou z 1 X,... X n nezávislých stejně rozdělených náhodných veličin se střední hodnotou μ a směrodatnou odchylkou σ > 0 Nechť S = X1 + X +.... + Pak pro každé x < y lim P[ x n Φ n X n Sn nμ σ n y] = Φ( y) kde je distribuční funkce normálního rozdělení Φ( x)

Transformace náhodné veličiny Známe X s rozdělením f(x) a transformaci ("monotónní") Y = g(x) Hledáme rozdělení Y, tj. h(y) a) diskrétní náhodné veličiny h(y) = f[ g -1 (y) ] b) spojité náhodné veličiny h(y) = f[ g -1 (y) ] * d g -1 (y) / dy) kde d g -1 (y) / dy) je (normalizační faktor) Jakobián transformace

Příklady a) y = a x + b, g -1 (y) = (y-b)/a, h(y) = (1/ a ).f((y-b)/a) b) y = a x, g -1 (y) = (y/a), h(y) = (1/( a y )) f( (y/a)) c) y = a exp(x),g -1 (y) = ln(y/a), h(y) = f[ln(y/a) 1/y Lineární transformace: mění se pouze polohu a rozptýlení Nelineární transformace: již dochází ke změně tvaru rozdělení Transformace distribuční funkcí vede na rovnoměrné rozdělení!! y = F(x) f(y) = f[f -1 (y)] [d F -1 (y)] / dy = f[q(y)].q(y) = 1

g 1 = 1 * p N* p*( 1 p) Binomické rozdělení B(N,p)) Binomické rozdělení g 1 6 p 1 p = * *( ) N* p*( 1 p) Binomické rozdělení má náhodná veličina X vyjadřující počet výskytu jevu A (příznivý výsledek) v N nezávislých pokusech. Pravděpodobnost výskytu jevu A (příznivý výsledek) v jednom pokusu je p a jevu (nepříznivý výsledek) je q = 1 - p. A + 3 Pravděpodobnostní funkce Px i N ( = ) = * p *( p) 1 x x N i N i Fx ( ) = * p *( 1 p) i X N x Distribuční funkce i= 0 x Střední hodnota: E(X) = N p p je počet příznivých jevů v N nezávislých pokusech Rozptyl: D(X) = N p (1 - p) xp Módus: p (N+1)-1 <= Mo < = p (N+1) p = N

1 1 g 1 = g = 3 + λ λ Poissonovo rozdělení Poissonovo rozdělení Po(λ) má náhodná veličina X, která je rovna počtu jevů vdaném časovém nebo prostorovém intervalu, kde x je aritmetický průměr počtu jevů vdaném časovém nebo prostorovém intervalu Pravděpodobnostní funkce Distribuční funkce P( x = x i) = λ * e x λ / x! F( x) = λ * i = 0 i e λ / i! Střední hodnota E(X) =λ λ = x Rozptyl D(X) =λ

Normální rozdělení Normované normální rozdělení U N(0,1) P( -1.65 U 1.65 ) = 0.90 f() = 0.05 P( -1.98 U 1.98 ) = 0.95 f(3) = 0.04 P( -3 U 3 ) = 0.9973 f(4) = 0.00013 Normální rozdělení N((μ, σ ): 1 Hustota pravděpodobnosti f( x) = e x * π Distribuční funkce x μ Fx ( ) = Φ( ) Φ( x) = σ Střední hodnota: E(X) =μ Rozptyl: D(X) = σ Šikmost: Špičatost: g 1 = 0 g = 3 μ = x x = Σx i /N ( μ) / σ 1 * π x y exp( ) dy 0,68 0.05 0,05 - -1 0 1 1 N = ( xi x) N 1 σ i= 1

Matematická statistika Populace X vzorkování Výběr{x i } i=1,...n f(x, μ, σ, g 1, g ) f ( x ), μ, σ, g 1, g Symbol " " označuje odhady parametrů nebo hustoty pravděpodobnosti zdat. Bodové odhady a Parametr a odhad je náhodná proměnná. Vychýlení odhadu b= a E( ) a Pokud je b = 0 jde o nevychýlený odhad. Rozptyl odhadu D( ) a je charakterizací "přesnosti odhadu"

Normální rozdělení X i mají rozdělení N( μ ) σ Parametr μ odhad x rozptyl Dx ( )= σ N D( x) = 1 N D( Σ x i) = Nσ = N σ N Parametr odhad rozptyl σ s D( s ) ρ( x, s ) = * σ = N Ne-normální rozdělení Korelační koeficient g 1 ( x) n 4

Pokud x i nemají normální rozdělení σ (g 1) D(s) 4N Směrodatná odchylka Směrodatná odchylka s je vychýleným odhadem veličiny σ. Platí, že E(s) < σ. Pro nevychýlený odhad lze odvodit σ = K u * s s (N 1) N 1.45 kde K u N 1 = Γ( ) N 1 N Γ( ) N 1 N 1 3 4N 37 3 N D( σ ) = σ (N) D(s) σ (N 1)

Variační koeficient Výběrový odhad V a odpovídající rozptyl D(V) lze vyjádřit ve tvaru V = x s D(V) N + (N 1) δ δ δ (1 + ( 1) N n N δ )

Odhady jsou pouze asymptotické (platí pro velké N ). Šikmost a špičatost Pro odhad šikmosti g 1 se používá výběrová šikmost rozptylem D( ), kde ĝ 1 N 3 N (x i x) i = 1 ĝ1 = D( ĝ 3 / 1 N (x i x) i = 1 ) (N ĝ 1 6N(N - )(N + s - 1) 1)(N + 3) Pro odhad špičatosti g platí ĝ = N N i = 1 N i = 1 (x (x i i x) x) 4 D( ĝ ) (N - 4N(N - 1) 3)(N - )(N + 5)(N + 3)

Omezení x i mají rozdělení N( μ, σ ) Maximální vybočující měření x k je omezeno nerovností ( n 1) ( x x) s K n Omezení na rozmezí dat x ) * ( 1) * ( n ) (1) ( x n s

Kvantilová metoda pro lognormální data Tří parametrové lognormální rozdělení f ( x) = Parametr 1 exp{ * π *(1 + σ * Y )* τ Y = x μ /τ P i x ( μ τ ) / σ i + 0.3133σ 0.397 = N + 0.146 1 σ [ln(1 + σ * Y )] } Transformace z = ln[(1 + σ * Y ) 1/ σ ] vede na N(0,1) Pořádková statistika x (i) souvisí se standardizovanou normální pořádkovou statistikou z (i) exp( σ * z ( i) ) 1 x ( i) = μ + τ * μ + τ * g i ( σ ) σ Pro známéσ je možné odhadnout exp( σ * Φ g i ( σ ) = parametry μ,τ jako směrnici a úsek σ regresní přímky x μ + τ * g ( ) ( i) i σ 1 ( P i ) 1

Standardizace metodou Z-skóre (u, t, Z jsou transformované proměnné)