Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1
Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev. logistická, Poissonova) analýza časových řady (krom regrese) Bayesovské metody Minikurz aplikované statistiky p.2
Dnes to, co již vlastně víte co to je náhodná veličina nezávislost, střední hodnota, rozptyl příklady rozdělení maximálně věrohodné odhady, testování hypotéz Minikurz aplikované statistiky p.3
Pravděpodobnostní prostor, náhodná veličina Pravděpodobnostní prostor je trojice (Ω, A, P), kde Ω je nějaká množina, A je prostor jevů (sigma algebra nad Ω) a P je pravděpodobnostní míra. Náhodná veličina je "měřitelné" zobrazení z Ω do R n. Pozn.: Pro dnešek n = 1. Minikurz aplikované statistiky p.4
Diskrétní a spojité n.v., jejich hustota a střední hodnota Diskrétní náhodná veličina nabývá jen konečně (ev. spočetně) mnoha hodnot. P(X = x) = p x P(X A) = x A P(X = x) = x A p x EX = x p x Spojitá n.v. n.v. je taková, že x f(x)dx = 1 P(X A) = x A f(x)dx EX = x f(x)dx Minikurz aplikované statistiky p.5
Hustota trasformované náhodné veličiny Necht f je hustota spojité n.v. X a g je hustota Y = t(x). Potom g(y) = f(t 1 (y)) t (t 1 (y)). Pozn. Pro vícerozměrné místo derivace Jakobián. Minikurz aplikované statistiky p.6
Nezávislost jevů, náhodných veličin Jevy A,B A jsou nezávislé, pokud P(A B) = P(A) P(B). Náhodné veličiny X a Y jsou nezávislé, pokud pro libovolně zvolené A, B P(X A,Y B) = P(X A) P(Y B). Minikurz aplikované statistiky p.7
Vlastnosti střední hodnosty Pro X, Y n.v., a,b R: E(X + Y ) = EX + EY E(aX + b) = (a EX) + b Pro X, Y nez.: E(XY ) = (EX)(EY ) Minikurz aplikované statistiky p.8
Rozptyl Definice: Vlastnosti: VarX = E (X (EX)) 2 = E(X 2 ) (EX) 2 Var(aX + b) = (a 2 VarX) Pro X, Y nez.: Var(X + Y ) = (VarX) + (VarY ) Minikurz aplikované statistiky p.9
Alternativní rozdělení Alt(p) Hod mincí, kdy jednička (panna) padne s pravděpodobností p: p 1 = p, p 0 = 1 p EX = p VarX = p(1 p) Minikurz aplikované statistiky p.10
Binomické rozdělení Bin(n, p) Součet n alternativních rozdělení: p x = ( n) x p x (1 p) n x EX = np VarX = np(1 p) Minikurz aplikované statistiky p.11
Geometrické rozdělení Geom(p) Pravděpodobnost x neúspěchů před prvním úspěchem: p x = (1 p) x p EX = 1 p p VarX = 1 p p 2 Minikurz aplikované statistiky p.12
Poissonovo rozdělení P oiss(λ) Používá se pro modelování počtů p x = exp( λ) λx x! EX = λ VarX = λ Minikurz aplikované statistiky p.13
Rovnoměrné na intervalu [a, b]: R(a, b) f(x) = 1 b a EX = a+b 2 VarX = (b a)2 12 Minikurz aplikované statistiky p.14
Exponenciální Exp(λ) Rozdělení bez paměti: f(x) = λ 1 exp( x λ ) EX = λ VarX = λ 2 Minikurz aplikované statistiky p.15
Normální rozdělení N(µ,σ 2 ) f(x) = 1 2πσ 2 exp( (x µ)2 2σ 2 ) EX = µ VarX = σ 2 Minikurz aplikované statistiky p.16
Zákon velkých čísel, centrální limitní věta Necht X 1,X 2,... jsou stejně rozdělené, navzájem nezávislé náhodné veličiny s konečným rozptylem. Pro n dostatečně vysoké jistým způsobem platí: n (1 n 1 n n X i EX, i=1 ) n X i EX i=1 N(0, VarX). Minikurz aplikované statistiky p.17
Vlastnosti normálního rozdělení Pro X, Y nezávislé normálně rozdělené n.v., a,b R platí X + Y ax + b jsou opět normálně rozdělené a parametry snadno dopočtu podle rozptylu a střední hodnoty. Minikurz aplikované statistiky p.18
Typické úlohy statistiky Odhad (odhadni p v binomickém rozdělení) Test hypotézy (testuj, že p = 1 2 ) Minikurz aplikované statistiky p.19
Maximálně věrohodný odhad - MVO X 1,...,X n nezávislé, stejně rozděleně náhodné veličiny s hustotou f(x;θ) Věrohodnostní funkce L(x 1,...,x n ;θ) = n i=1 f(x i ;θ) MV odhad ˆθ = arg max θ L(θ) (Hledáme hodnotu parametru, pro kterou nejpravděpodobněji můžou nastat pozorované hodnoty) Minikurz aplikované statistiky p.20
MVO - Příklad X 1,...,X n f(x;θ) f(x;θ) = 2x ( x 2) θ exp θ = 0 pro x 0 pro x > 0 Věrohodnostní funkce L(θ) = 2n θ n ( i x i ) exp ( 1 θ i x 2 i ) Minikurz aplikované statistiky p.21
MVO - Příklad (pokračování) místo L(θ) můžeme maximalizovat l(θ) = log L(θ): l(θ) = n log 2 n log θ + i x i 1/θ i x 2 i maximum je řešením věrohodnostní rovnice l(θ) θ = n θ + 1 θ 2 i x 2 i = 0 vyřešením dostaneme odhad ˆθ = 1 n x 2 i Minikurz aplikované statistiky p.22
Software R (prostředí pro stat. výpočty) http://www.r-project.org OpenBUGS (Bayesovská analýza) http://mathstat.helsinki.fi/openbugs/ Tyto slidy je možno stáhnout z http://5r.matfyz.cz/princip/ Minikurz aplikované statistiky p.23