prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman Kotecký, 2011 Pravděpodobnost a statistika BI-PST, LS 2010/11, Přednáška 8 Evropský sociální fond. Praha & EU: Investujeme do vaší budoucnosti Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 1 / 19

Rekapitulace Podmíněná hustota pravděpodobnosti f X A náhodné veličiny X podmíněná jevem A: hustota f X A pro kterou P(X B A) = B f X A(x)dx. f X X D (x) = { fx (x) D fx (t)dt pro x D, 0 jindy. Úplný rozklad pro hustoty : f X (x) = n i=1 f X A i (x)p(a i ). Podmínění náhodné veličiny X náhodnou veličinou Y : f X Y (x y) = f X,Y (x, y), P(X A Y = y) = f Y (y) f X Y (x y)dx. A Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 2 / 19

Rekapitulace Podmíněné střední hodnoty : E(X A) = x f X A (x)dx a E(X Y = y) = x f X Y (x y)dx. n E(X) = P(A i )E(X A i ) a E(X) = E(X Y = y)f Y (y)dy. i=1 Poslední rovnost můžeme interpretovat jako tvrzení o střední hodnotě náhodné veličiny E(X Y) která nabývá hodnoty E(X Y = y) kdykoliv Y = y. A sice, E(E(X Y)) = E(X). Bayesova formule : f X Y (x y) = f X (x)f Y X (y x) f X(t)f Y X (y t)dt a P(N = n Y = y) = p N(n)f Y N (y n) k p N(k)f Y N (y, k). Kovariance náhodných veličin X a Y : Cov(X, Y) = E(XY) E(X)E(Y). Korelační coeficient náhodných veličin X a Y : ρ(x, Y) = Cov(X,Y). var(x)var(y) Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 3 / 19

Generující funkce Definice Definice Generující funkce (či přesněji, moment generující funkce) náhodné veličiny X je funkce M(s) = M X (s) definovaná vztahem M(s) = E(e sx ). Tj. pro diskrétní či spojitou veličinu, M(s) = k e sk p X (k), M(s) = e sx f X (x)dx. Generující funkce jednoznačně určuje hustotu f X (resp. funkci p X ) pro veličinu X. Speciálně, umožňuje vypočítat momenty veličiny X: Věta Pro náhodnou veličinu X s generující funkcí M(s) platí: E(X n ) = d n ds n M(s) s=0. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 4 / 19

Generující funkce Příklady generujících funkcí Příklady Poissonova náhodná veličina : p X (k) = λk e λ k!, k = 0, 1,... Dostáváme: d 2 ds 2 eλ(e M(s) = k=0 e sk λk e λ k! d s ds eλ(e 1) = λe s e λ(es 1) s 1) = ( (λe s ) 2 + λe s) e λ(es 1) = e λ(es 1). = E(X) = λ, = E(X 2 ) = λ + λ 2 a var(x) = λ. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 5 / 19

Generující funkce Příklady generujících funkcí Příklady (pokračování) Exponenciální náhodná veličina : f X (x) = λe λx, x 0. Pak M(s) = λ 0 e sx e λx = λ e(s λ)x s λ 0 = λ λ s. Všimněte si, že M(s) je definována jen pro s [0, λ). Pro s λ integrál diverguje. Odsud d 2 ds 2 d ds λ λ s = λ λ s = λ (λ s) 2 = E(X) = 1 λ, 2λ (λ s) 3 = E(X 2 ) = 2 λ 2 a var(x) = 1 λ 2. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 6 / 19

Generující funkce Sumy nezávislých náhodných veličin Sčítání náhodných veličin odpovídá násobení jejich generujících funkcí Pro Z = X + Y máme M Z (s) = E(e sz ) = E(e s(x+y) ) = E(e sx e sy ) = = E(e sx )E(e sy ) = M X (s)m Y (s). Platí obecně: pro nezávislý soubor náhodných veličin X 1,..., X n, Z = X 1 + + X n = M Z (s) = M X1 (s) M Xn (s). Příklad Nechť X 1,..., X n jsou nezávislě Bernoulliovy náhodné veličiny s parametrem p. Pak M Xi (s) = (1 p)e 0s + pe 1s = 1 p + pe s, i = 1,..., n. Náhodná veličina Z = X 1 + + X n (n hodů falešnou mincí) je binomiální s parametry n a p. Její generující funkce je M Z (s) = ( 1 p + pe s)n. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 7 / 19

Generující funkce Sumy nezávislých náhodných veličin Příklad (pokračování) Nechť X a Y jsou nezávislě Poissonovy náhodné veličiny s parametry λ a µ a nechť Z = X + Y. Pak M Z (s) = M X (s)m Y (s) = e λ(es 1) e µ(e s 1) = e (λ+µ)(es 1). Z je opět Poissonova náhodná veličiny s parametrem λ + µ : λ µ (λ + µ)k P(Z = k) = e. k! Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 8 / 19

Oč jde? V limitních teorémech jde o chování velkých datových souborů. Mějme posloupnost X 1, X 2,... nezávislých náhodných veličin, každou z nich s identickým pravděpodobnostním rozložením ( i.i.d. ) se střední hodnotou µ a variancí σ 2. Nechť S n = X 1 + + X n je suma prvních n z nich. Jde nám o chování veličiny S n (a veličin s ní příbuzných) pro velká n. Díky nezávislosti máme var(s n ) = var(x 1 ) + + var(x n ) = nσ 2. Rozptyl veličiny S n roste a nemůže tedy mít smysluplnou limitu. Jinak je to se střední hodnotou vzorku : Máme M n = X 1 + + X n n = S n n. E(M n ) = µ, a var(m n ) = σ2 n Variance M n se zmenšuje s n, a veličina M n by měla být rozložena blízko okolo µ. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 9 / 19

Oč jde? Veličina mezi S n a M n : od S n odečteme nµ aby střední hodnota byla 0 a pak dělíme σ n aby rozptyl byl 1: Z n = S n nµ σ n. Pro tuto veličinu máme E(Z n ) = 0 a var(z n ) = 1: její rozložení zůstává kostantní s n. Pravděpodobnostní rozložení Z n se ani nerozplývá ani nekolabuje s n: asymptotické rozložení Z n je pro velké n blízko k standardnímu normálnímu rozložení: to je centrální limitní věta. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 10 / 19

Markovova nerovnost Věta (Markovova nerovnost) Je-li X nezáporná náhodná veličina, pak P(X a) E(X) a pro každé a > 0. Důkaz. Nechť A = {X a}. Pak X ai A. Vezměme střední hodnotu z této nerovnosti. Příklad Nechť X je stejnoměrně rozložené na intervalu [0, 4]. Pak P(X 2) 2 2 = 1, P(X 3) 2 3 = 0.67, P(X 4) 2 4 = 0.5. Srovnejme s přesnými hodnotami P(X 2) = 0.5, P(X 3) = 0.25, P(X 4) = 0. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 11 / 19

Čebyševova nerovnost Věta (Čebyševova nerovnost) Pokud X je náhodná veličina se střední hodnotou µ a variancí σ 2, platí P( X µ c) σ2 pro každé c > 0. c 2 Důkaz. Použijeme Markovovu nerovnost pro veličinu (X µ) 2 s a = c 2, P( X µ c) = P( X µ 2 c 2 ). Pro c = kσ dostáváme P( X µ kσ) σ2 k 2 σ 2 = 1 k 2. Příklad Pro uvažovaný příklad se stejnoměrným rozložením dostáváme P( X 2 1) 4, což je prázdné tvrzení vzhledem k tomu, že každá 3 pravděpodobnost je nejvýše 1. Skutečná hodnota této pravděpodobnosti je 1/2. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 12 / 19

Čebyševova nerovnost Poznámka Čebyševova nerovnost je v obecném případě nejlepší možná. Pro každé c existuje X pro které je to rovnost: Stačí vzít X s rozložením P(X = +c) = P(X = c) = 1. Pak E(X) = 0, 2 var(x) = c 2 a tedy P( X µ c) = var(x) = 1. c 2 Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 13 / 19

Slabý zákon velkých čísel Uvažujme, M n = X1+ +Xn, E(M n n ) = µ, a var(m n ) = σ2. n Podle Čebyševovy nerovnosti, P( M n µ c) σ2 pro každé c > 0. Tedy, nc 2 Věta (Slabý zákon velkých čísel) Nechť X 1, X 2,... jsou nezávislé identicky rozdělené náhodné veličiny se střední hodnotou µ. Pro každé ɛ > 0 platí P( M n µ ɛ) = P ( X 1 + + X n n µ ɛ ) 0 při n. Ve speciálním případě kdy X i = I A s P(A) = p pro nějaký náhodný jev A, je M n empirická četnost jevu A. Zákon velkých čísel pak říká, že emirická četnost se blíží střední hodnotě E(I A ) = P(A) = p: empirická četnost je dobrým odhadem pravděpodobnosti p, nebo naopak, pravděpodobnost p je četnost výskytu události A. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 14 / 19

Konvergence v pravděpodobnosti Máme lim n a n = a: ɛ > 0 n 0 such that a n a ɛ for all n n 0. Podobně: Definice Nechť X 1, X 2,... je posloupnost náhodných (ne nutně nezávislých) veličin a nechť a je reálné číslo. Řekneme, že posloupnost X n konverguje k a v pravděpodobnosti, jestliže pro každé ɛ > 0. lim n P( X n a ɛ) = 0 Slabý zákon velkých čísel: střední hodnota M n konverguje v pravděpodobnosti k a. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 15 / 19

Centrální limitní věta Empirická střední hodnota M n je koncentrovaná těsně okolo µ, prostý součet S n = nm n roste k nekonečnu s rostoucí variancí. Veličina mezi S n and M n je Z n = Sn nµ σ s E(Z n n ) = 0 a var(z n ) = 1. Věta (Centrální limitní věta) Nechť X 1, X 2,... je posloupnost nezávislých identicky rozložených náhodných veličin se společnou střední hodnotou µ a variancí σ 2 a nechť Z n = X 1 + + X n nµ σ. n Pak distribuční funkce veličiny Z n konverguje k distribuční funkci standardního normálního rozložení Φ(z) = 1 z 2π e x 2 /2 dx, v tom smyslu, že lim n P(Z n z) = Φ(z), pro každé z. Idea důkazu: M Zn (s) = (M X ( s σ n ))n, M X (s) 1 + 1 2 σ2 s 2 + o(s 2 ) a (1 + s2 2n )n e s2 /2. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 16 / 19

Centrální limitní věta Význam centrální limitní věty je v možnosti aproximovat sumu náhodných veličin: Algoritmus Nechť S n = X 1 + + X n kde X k jsou nezávislé identicky rozložené náhodné veličiny se společnou střední hodnotou µ a variancí σ 2. Je-li n velké, můžeme pravděpodobnost P(S n c) aproximovat pomocí následujících kroků: 1. Vypočtěte střední hodnotu nµ a varianci nσ 2 náhodné veličiny S n. 2. Vypočtěte normalizovanou hodnotu z = (c nµ)/σ n. 3. Použijte aproximaci P(S n c) Φ(z), kde Φ(z) se získá z tabulek standardního normálního rozložení. Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 17 / 19

Silný zákon velkých čísel Intuice: hodíme si mincí 100 krát. Střední hodnota se s malou pravděpodobností může podstatně lišit od 1/2, ale tato deviace by měla postupně zmizet jestliže v házení mincí budeme pokračovat. Definice (Konvergence P-skoro jistě) Nechť Y, Y 1, Y 2,... je posloupnost náhodných veličin na (Ω, F, P). Posloupnost (Y i ) i 1 konverguje skoro jistě k Y, pokud P ( ω Ω : Y n (ω) Y(ω) ) = 1. Lemma skoro jistě = v pravděpodobnosti. Důkaz. P( Y n Y ɛ) P(sup Y k Y ɛ) k n n P( Y k Y ɛ pro mnoho k) P(Y k Y) Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 18 / 19

Silný zákon velkých čísel Příklad Opačná implikace neplatí: Uvažujme posloupnost Y k na intervalul [0, 1] se stejnoměrným pravděpodobnostním rozdělením P, definovanou vztahem Y k = I m2 n,(m+1)2 n pro každé k = 2 n + m s 0 m < 2 n. Pak Y P k 0, ale nekonverguje k 0 skoro jistě. Věta (Silný zákon velkých čísel) Nechť (X i ) i 1 je posloupnost po dvou nekorelovaných náhodných veličin s konečným druhým momentem a omezenou variancí, v := sup i var(x i ) <. Pak 1 n n (X i E(X i )) 0 skoro jistě. i=1 Roman Kotecký, Rudolf Blažek (FIT ČVUT) Limitní věty BI-PST, LS 2010/11, Přednáška 8 19 / 19