STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA PŘÍKLADY LS 2005/2006 Příklady jsou většinou převzaté ze skript Dupač & Hušková (1999), Zvára & Štěpán (2002) a ze sbírky Potocký et al. (1986). Některé příklady a protipříklady pocházejí z knihy Romano & Siegel (1986). Jsou členěny do sekcí podle jednotlivých cvičení. 1. Přímý výpočet pravděpodobnosti (24.2.2006) 1. V antikvariátu má 20 % knih vytrženou stranu, 30 % je popsaných a 60 % je bez poškození. Jaká je pravděpodobnost, že náhodně vybraná kniha je popsaná, ale má všechny strany? 2. Z kartiček s čísly 1, 2, 3, 4, 5 náhodně vybereme tři a položíme je v pořadí, v němž jsme je vybrali. Jaká je pravděpodobnost, že vzniklé trojciferné číslo je sudé? 3. Skupina 10 studentů, z nichž 3 jsou z MFF, se náhodně seřadí do fronty. Určete pravděpodobnost, že 3 z MFF budou vedle sebe. 4. Hodíme 6 kostkami. Určete pravděpodobnost, že (i) padnou vesměs různá čísla, (ii) padnou pouze lichá čísla. 5. V krabici je 8 bílých, 8 červených a 8 modrých koulí. Náhodně vytáhneme jednu, zapíšeme si její barvu a vrátíme ji do krabice. Pak vytáhneme druhou kouli. (1) Jaká je pravděpodobnost, že bude mít stejnou barvu jako první koule? (2) Jak to bude v případě, že první kouli nevrátíme? 6. Ve sportce se sází 6 čísel, losuje se 6 ze 49. Spočtěte pravděpodobnost, že právě 4 čísla vsadíme správně. 7. Skupina n a lidí, z nichž dva jsou naši známí, se rozdělí náhodně do n skupin po a osobách. Jaká je pravděpodobnost, že se naši dva známí dostanou do stejné skupiny? 8. Jaká je pravděpodobnost, že ve třídě n žáků existuje dvojice, která má narozeniny ve stejný den? Jaká je pravděpodobnost, že existuje žák, který má narozeniny ve stejný den jako učitel? 9. (Maxwell Boltzmann.) Náhodně rozmístíme n rozlišitelných kuliček do r přihrádek. Stavem systému je seznam adres jednotlivých kuliček (tj. pro každou kuličku udáme přihrádku, v níž se nachází). Všechny stavy jsou stejně pravděpodobné. (i) Kolik je stavů? (ii) Jaká je pravděpodobnost p n,r,k, že v první přihrádce je právě k kuliček? (iii) Jaká je limita této pravděpodobnosti, když n a současně r = r n, a to tak, že n/r n λ (0, )? (k je pevné.) (iv) Jaká je pravděpodobnost, že aspoň jedna přihrádka je prázdná? 2. Přímý výpočet pravděpodobnosti, podmíněná pravděpodobnost (3.3.2006) 10. (Bose Einstein.) Náhodně rozmístíme n nerozlišitelných kuliček do r přihrádek. Stavem systému jsou počty kuliček v jednotlivých přihrádkách (tj. pro každou z r přihrádek udáme, kolik je v ní kuliček). Všechny stavy jsou stejně pravděpodobné. (i) Kolik je stavů? (ii) Jaká je pravděpodobnost p n,r,k, že v první přihrádce je právě k kuliček? (iii) Jaká je limita této pravděpodobnosti, když n a současně r = r n, a to tak, že n/r n λ (0, )? (k je pevné.) (iv) Jaká je pravděpodobnost, že aspoň jedna přihrádka je prázdná? 1
11. Tenista má první podání úspěšné s pravděpodobností 0.6, druhé s pravděpodobností 0.8. Jaká je pravděpodobnost dvojchyby? 12. Máme tři karty: jedna má obě strany černé, druhá obě červené, třetí jednu černou a jednu červenou. Potmě vybereme náhodně jednu kartu a položíme ji náhodnou stranou na stůl. Po rozsvícení vidíme červenou. Jaká je pravděpodobnost, že karta je na druhé straně černá? 13. Hráči A, B a C střídavě házejí mincí do té doby, než někomu padne líc. V tom okamžiku hra končí a tento hráč je vítězem. Jaká je pravděpodobnost výhry hráče A, B, C? 14. V krabici je 15 tenisových míčků: 9 nových a 6 starých. Náhodně vybereme 3 a hrajeme s nimi (čímž se stanou nebo zůstanou starými). Pak je vrátíme a opět náhodně vybereme 3. Jaká je pravděpodobnost, že pro druhou hru máme právě k = 0, 1, 2, 3 nových? 15. K disposici máme N uren, v i-té je a i bílých a b i černých koulí. Náhodně vybereme jednu urnu a z ní jednu kouli. Zjistíme, že je bílá. Jaká je pravděpodobnost, že jsme táhli z k-té urny? 16. Hráče A porazím s pravděpodobností p A, hráče B s pravděpodobností p B ; p A > p B. Hraji tři hry. Pokud se mi podaří vyhrát aspoň dvě za sebou, získám odměnu. Mám na výběr dvě strategie: (I) hrát nejprve s A, pak s B, nakonec s A, (II) hrát nejprve s B, potom s A, pak s B. Která strategie je pro mě výhodnější? 3. Nezávislost, geometrická pravděpodobnost, náhodné veličiny (10.3.2006) 17. Hodíme modrou a zelenou kostkou. Uvažujme jevy A := [na modré je sudé číslo], B := [na zelené je liché číslo], C := [součet na obou kostkách je lichý]. Jsou tyto jevy nezávislé? Jsou po dvou nezávislé? 18. Třikrát po sobě hodíme mincí. Rub (R) i líc (L) mají pravděpodobnost 1/2. Uvažujme jevy A = RRR, LRR, RLL, LLL}, B = RRL, RLR, LLR, LLL}, C = RRL, RLR, LRL, LLL}. Ukažte, že A, B, C nejsou nezávislé, ale přitom platí Pr(A B C) = Pr(A) Pr(B) Pr(C). 19. Opakovaně házíme současně dvěma kostkami. Jaká je pravděpodobnost, že součet 5 padne dřív než součet 7? 20. Na následujícím známém vtipu si uvědomte rozdíl mezi pravděpodobností průniku a podmíněnou pravděpodobností: Na konferenci se baví dva statistici o tom, jaká byla cesta. Jeden z nich říká, že přijel vlakem, protože letadlem necestuje od té doby, co si přečetl, že pravděpodobnost bomby v letadle je 1/1000, což je pro něj příliš riskantní. Druhý mu na to odpoví: Tak to dělej jako já. Pravděpodobnost, že by v letadle byly dvě bomby, je 1/1000000, což už je přijatelné. Takže já si vždycky beru jednu bombu svou. 21. Tyč délky l se náhodně rozláme na tři kusy. Jaká je pravděpodobnost, že z nich lze sestavit trojúhelník? 22. Náhodně zvolíme čísla x, y (0, 1). S jakou pravděpodobností je jejich součet menší než 1 a součin menší než 0.09? 23. Na měřitelném prostoru (Ω, A), kde Ω = 1, 2, 3, 4} a A =, 1, 2}, 3, 4}, Ω}, uvažujme funkce X a Y s hodnotami v R definované takto: X(1) = X(2) = 1, X(3) = X(4) = 2, Y (1) = Y (2) = Y (3) = 1, Y (4) = 2. Rozhodněte, zda jsou tyto funkce náhodnými veličinami. 2
24. Na pravděpodobnostním prostoru (Ω, A, P ), kde Ω = 1, 2}, A =, 1}, 2}, Ω} a P (1}) = P (2}) = 1/2, je definována náhodná veličina X. Dále uvažujme pravděpodobnostní prostor (Ω, A, P ), kde Ω = [0, 1], A = B([0, 1]) jsou borelovské množiny na [0, 1] a P = λ je Lebesgueova míra. Na (Ω, A, P ) jsou definovány veličiny Y, Z, V. Definice X, Y, Z, V jsou následující 0, ω = 1, X(ω) = 1, ω = 2, 0, ω [0, 1/4] [3/4, 1], Z(ω) = 1, ω (1/4, 3/4), 0, ω [0, 1/2], Y (ω) = 1, ω (1/2, 1], 0, ω [0, 1/2] \ 0.1}, V (ω) = 1, ω (1/2, 1] 0.1}. Rozmyslete si, že X, Y, Z, V mají všechny stejné rozdělení (alternativní s parametrem 1/2), ačkoli jsou jinak definované, dokonce i na různých pravděpodobnostních prostorech. 25. Nechť X má binomické rozdělení s parametry n, p, tj. p k = Pr[X = k] = ( n k) p k (1 p) n k, k = 0,..., n (p k = 0, k > n). Spočtěte momentovou vytvořující funkci M(t) = E exptx} a pomocí ní určete E X a var X. K témuž můžete využít i vytvořují funkci pravděpodobností A(t) = E t X = k=0 p kt k. Pro jakou hodnotu p (0, 1) je rozptyl veličiny X největší? 26. Pro p (n) k = ( n k) p k (n) (1 p (n) ) n k, k = 0,..., n ukažte, že lim n p(n) k = e jestliže p (n) 0 tak, že np (n) λ (0, ). λ λk, k = 0, 1,..., k! 4. Diskretní rozdělení (17.3.2006) 27. Nechť X má Poissonovo rozdělení s parametrem λ, tj. p k = Pr[X = k] = e k!, k = 0, 1,... Spočtěte E X a var X (pomocí vytvořují funkce pravděpodobností, momentové vytvořující funkce nebo přímým výpočtem). 28. V kolejní síti je 923 počítačů, jeden z nich je váš a provozujete na něm FTP server. Každý počítač dá během hodiny na váš server požadavek s pravděpodobností 0.01. Spočtěte pravděpodobnost, že k vám během hodiny přijde požadavek (a) právě z 6, (b) nejvýše z 6 počítačů. Jednak počítejte tyto pravděpodobnosti přesně, tzn. v binomickém rozdělení, a jednak s použitím aproximace Poissonovým rozdělením. 29. Na server přijde za hodinu průměrně 60 požadavků. Jaká je pravděpodobnost, že po dobu 2 minut, kdy je server restartován, nepřijde žádný požadavek? 30. S použitím některé vytvořující funkce nebo přímo spočítejte střední hodnotu a rozptyl veličiny s geometrickým rozdělením, tj. p k = Pr[X = k] = q k p, k = 0, 1,... (q = 1 p). 31. Dokažte, že pro nezápornou veličinu X s diskretním rozdělením jsou následující tvrzení ekvivalentní: (i) X má geometrické rozdělení, (ii) Pr[X = k + n X k] = Pr[X = n] pro všechna k, n = 0, 1,... 32. Dva hráči střídavě házejí na koš, první se trefí s pravděpodobností p 1, druhý s p 2. Hra končí, když se někdo trefí. Označme X 1 počet hodů prvního hráče během celé hry, X 2 totéž pro druhého. Určete Pr[X 1 = k], Pr[X 2 = k]. 5. Spojitá rozdělení (24.3.2006) 33. Určete střední hodnotu a rozptyl náhodné veličiny s rovnoměrným rozdělením na intervalu [a, b]. 34. Nechť veličina X má spojité rozdělení s hustotou f(x) = cx 3 pro x 1, f(x) = 0 jinak. Určete konstantu c, distribuční funkci, střední hodnotu, rozptyl, Pr[0 < X < 2]. 3 λ λk
35. Určete E X k pro X s gamma rozdělením (X Γ(a, p)) daným hustotou f(x) = ap Γ(p) xp 1 e ax 1 (0, ) (x). Určete var X. Pro speciální případ exponenciálního rozdělení Exp(a) (= Γ(a, 1)) určete distribuční funkci F a doplňkovou distribuční funkci S = 1 F (S se nazývá funkce přežití). 36. Dokažte, že pro nezápornou veličinu X se spojitým rozdělením jsou následující tvrzení ekvivalentní: (i) X má exponenciální rozdělení, (ii) Pr[T > s + t T > s] = Pr[T > t] pro všechna s, t 0. 37. Nechť F je nějaká spojitá rostoucí distribuční funkce, F 1 její inverse. Mějme veličinu U R(0, 1). Ukažte, že veličina X = F 1 (U) má distribuční funkci F. (Poznámka: Tvrzení platí i bez předpokladu, že F je spojitá rostoucí. V tom případě je definováno F 1 (u) = infx : F (x) u}.) Uvědomte si význam pro simulace. Jak nasimulujete veličinu například s exponenciálním či Cauchyovým rozdělením, jestliže máte k disposici generátor (pseudo)náhodných čísel s rovnoměrným rozdělením? 38. Má-li veličina X střední hodnotu µ a rozptyl σ 2, pak Y = a + bx (b 0) má střední hodnotu a + bµ a rozptyl b 2 σ 2. Ukažte, že je-li rozdělení X normální, pak i Y je normální (tj. Y N(a + bµ, b 2 σ 2 )). Zejména platí (X µ)/σ N(0, 1). 39. Buď X N(0, 1) a Y = X 2. Najdtěte hustotu rozdělení veličiny Y. Vyjde hustota Γ(1/2, 1/2), toto rozdělení se nazývá χ 2 rozdělení s jedním stupněm volnosti (značí se χ 2 1). 40. Veličina X má Cauchyho rozdělení s hustotou 1 f(x) = π(1 + x 2 ), x R. Povšimněte si, že veličina nemá střední hodnotu. Ukažte, že Y = 1/X má opět Cauchyho rozdělení. 6. Náhodné vektory (31.3.2006) 41. Náhodný vektor (X, Y ) T má hustotu c, x 0, y 0, x + y 1, f(x, y) = 0 jinde (rovnoměrné rozdělení na uvedené množině). Najděte konstantu c, marginální hustoty X a Y, střední hodnoty, kovarianční a korelační matici. Rozhodněte, zda X a Y jsou nezávislé. 42. Uvažujme dva náhodné vektory: (U, V ) T s rozdělením s hustotou a (X, Y ) T s hustotou g(u, v) = 1 2π exp 1 2 (u2 + v 2 )}, (u, v) R 2, h(x, y) = 2g(x, y) pro xy 0, 0 jinak. Určete marginální rozdělení U a V v rozdělení (U, V ) T a totéž pro X a Y v rozdělení (X, Y ) T. Povšimněte si, že sdružené rozdělení není marginálními rozděleními určeno. 43. Pro nezávislé veličiny X Exp(λ 1 ) a Y Exp(λ 2 ) (i) určete rozdělení Z = min(x, Y ), (ii) spočtěte Pr[X < Y ]. 44. Nezávisle hodíme dvěma symetrickými mincemi. Pro každou minci zaznamenáme výsledek 1, když padne panna, 0, když padne orel. Označme S součet výsledků na obou mincích, R jejich rozdíl. Jaké je rozdělení vektoru (S, R) T? (Zapište tabulku pravděpodobností.) Jsou S a R nezávislé? Určete korelaci. 4
7. Náhodné vektory, konvoluce (7.4.2006) 45. Náhodný vektor (X, Y ) T má hustotu 2 f(x, y) = 3 (x + 2y), (x, y) [0, 1]2, 0 jinak. Najděte marginální hustoty X a Y, střední hodnoty, kovarianční a korelační matici, sdruženou distribuční funkci, marginální distribuční funkce. Rozhodněte, zda X a Y jsou nezávislé. 46. Najděte rozdělení součtu veličin U 1, U 2, jestliže tyto jsou nezávislé a U 1 R(0, 1), U 2 R(0, 1). Určete střední hodnotu a rozptyl U 1 + U 2. 47. Určete rozdělení S = X + Y, jestliže X Po(λ 1 ), Y Po(λ 2 ) a X, Y jsou nezávislé. 48. Určete rozdělení Pr[X = k X +Y = n], jestliže X Po(λ 1 ), Y Po(λ 2 ) a X, Y jsou nezávislé. 49. Najděte rozdělení X 1 + X 2, jestliže X 1 Γ(a, p 1 ) a X 2 Γ(a, p 2 ) jsou nezávislé. Na základě tohoto výsledku napište hustotu rozdělení χ 2 k. 8. Borel Cantelliho lemma, zákony velkých čísel (21.4.2006) 50. Pro nekonečnou posloupnost nezávislých hodů kostkou určete (a) Pr[nekonečně krát padne šestka], (b) Pr[nekonečně krát padne 1000 šestek za sebou]. 51. Nechť X n, n 1 jsou nezávislé veličiny s Pr[X n = n λ ] = Pr[X n = n λ ] = 1 2 (kde λ < 1 2 je konstanta). Dokažte, že pro posloupnost X n, n 1} platí silný zákon velkých čísel. 52. Nechť X n, n 1} je posloupnost nezávislých stejně rozdělených veličin s konečným rozptylem. Uvažujme posloupnost Y n, n 1} s Y n = n 1/3 X n. Platí pro ni SZVČ? 53. Veličiny X 1, X 2,... nechť jsou nezávislé s rozdělením daným pravděpodobnostmi Pr[X n = 1] = Pr[X n = 1] = 1 2 1 2 n+1, Pr[X n = 2 n ] = Pr[X n = 2 n ] = 1 2 n+1. Dokažte, že pro posloupnost X n } platí silný zákon velkých čísel. 54. Nechť X 1, X 2,... jsou nezávislé veličiny s rozdělením R(1, 2). Dokažte, že 1 n n k=1 a kx k 3a/2, jestliže platí 1 n n k=1 a k a < a k=1 a2 k /k2 <. 55. Jestliže Z n značí euklidovskou vzdálenost dvou náhodně umístěných bodů v n-rozměrné krychli jednotkové krychli. Ukažte, že Z n / n 1/ 6 s.j. 9. Centrální limitní věta (28.4.2006) 56. Životnost součástky má exponenciální rozdělení s intensitou 1/10 h 1. Pomocí centrální limitní věty řešte následující. (a) Máme 100 součástek. Jakmile se jedna porouchá, nahradíme ji další. Jaká je pravděpodobnost, že celková životnost bude mezi 900 a 1050 hodinami? (b) Kolik máme koupit součástek, aby nám celkově vydržely aspoň 600 hodin s pravděpodobností aspoň 95 %? 57. Na server má přístup 100 uživatelů. Z dřívějších zkušeností víme, že uživatel má na serveru průměrně µ = 120 MB dat, směrodatná odchylka množství dat je σ = 40 MB. Jak velký diskový prostor potřebujeme, aby s pravděpodobností 99 % nedošlo k jeho zaplnění? (Užijte CLV.) 58. Ukažte, že pro prosloupnost X 1, X 2,... nezávislých veličin, jež mají rozdělení Pr[X k = k λ ] = Pr[X k = k λ ] = 1/2 (kde λ > 0 je nějaká konstanta), platí centrální limitní věta. 59. Nechť X 1, X 2,... je posloupnost nezávislých veličin, pro něž Pr[X k = log k] = Pr[X k = log k] = 1/2. Ukažte, že pro tuto posloupnost platí CLV. Zapište explicitně tvrzení CLV pro tento případ. 5 s.j.
60. Označme ν n poměrnou četnost líců v n hodech symetrickou mincí. Kolik musíme provést hodů, aby ν n 1 2 0.05 s pravděpodobností alespoň 0.95? Řešte pomocí (a) Čebyševovy nerovnosti, (b) centrální limitní věty. 10. Bodové odhady parametrů (5.5.2006) 61. Je-li X 1,..., X n výběr z Poissonova rozdělení s parametrem λ, najděte maximálně věrohodný odhad ˆλ tohoto parametru a zdůvodněte jeho nestrannost a konsistenci. Dále si povšimněte, že λ = S 2 n = 1 n 1 n k=1 (X k X n ) 2 je rovněž nestranným a konsistentním odhadem λ. 62. Pro X 1,..., X n výběr z Po(λ) ukažte, že ˆp 0 = (1 1 n )n X n je nestranným a konsistentním odhadem p 0 = Pr[X = 0] = e λ. 63. Ukažte, že pro výběr o rozsahu n z alternativního rozdělení s parametrem p (0, 1) neexistuje nestranný odhad parametrické funkce 1/p. 64. Najděte maximálně věrohodný odhad ˆp parametru p pro výběr X 1,..., X n z Ge(p). Ukažte, že není nestranný (s využitím rozvoje v geometrickou řadu ukažte, že E p ˆp > p). 65. Je-li X 1,..., X n výběr z exponenciálního rozdělení s intensitou λ > 0 (s hustotou f(x; λ) = λe λx 1 (0, ) (x)), odhadněte λ metodou maximální věrohodnosti. Spočítejte střední hodnotu tohoto odhadu. Jaký odhad by byl nestranný? 66. Ukažte, že nemůže být současně T nestranným odhadem θ a T 2 nestranným odhadem θ 2. (Jestliže E T = θ a E T 2 = θ 2, pak T = θ skoro jistě, čili T není odhad, neboť závisí na neznámém parametru, který má odhadovat.) 11. Bodové odhady, Neyman Pearsonovo lemma (12.5.2006) 67. Uvažujme výběr X 1,..., X n z rozdělení s hustotou f(x; θ) = 3θ 3 x 4 1 [θ, ) (x), x R, θ > 0. (a) Ověřte, že θ = 2 3 X n je nestranný odhad θ. (b) Najděte maximálně věrohodný odhad ˆθ parametru θ. (c) Spočítejte střední hodnotu odhadu ˆθ. Na základě tohoto výsledku navrhněte nestranný odhad θ. (d) Ukažte, že ˆθ je slabě konsistentní (ˆθ ne jen jako důsledek silné konsistence.) Pr θ). (Slabou konsistenci ukažte přímo z definice, n (e) Ukažte, že ˆθ s.j. je silně konsistentní (ˆθ θ). (Užijte Borel Cantelliho lemma.) n (f) Najděte rozptyl ˆθ a θ a porovnejte rychlost konvergence rozptylů k 0 při n. 68. Uvažujme výběr o rozsahu n z alternativního rozdělení s neznámým parametrem p (0, 1). Podle Neyman Pearsonova lemmatu sestrojte test (najděte jeho kritický obor) hypotesy H 0 : p = p 0 proti alternativě H 1 : p = p 1, který je mezi všemi testy s hladinou nejvýše α nejsilnější. (Hodnoty p 0, p 1 jsou známé, předem dané, a splňují p 0 < p 1.) Kritický obor (oblast zamítnutí) stanovte jednak na základě binomického rozdělení a jednak s použitím normální approximace (CLV). Povšimněte si, že kvůli diskrétnosti binomického rozdělení (nespojitosti distribuční funkce) nelze vždy nalézt test, který má hladinu přesně α. 69. Je-li X 1,..., X n výběr z exponenciálního rozdělení s intensitou λ > 0 (s hustotou f(x; λ) = λe λx 1 (0, ) (x)), sestavte na základě Neyman Pearsonova lemmatu test nulové hypotesy H 0 : λ = λ 0 proti alternativě H 1 : λ = λ 1. (λ 0 < λ 1 jsou známé konstanty.) Kritický obor stanovte jednak přesně (gamma rozdělení) a jednak přibližně (s využitím CLV). Reference Dupač, V. & Hušková, M. (1999). Pravděpodobnost a matematická statistika. Karolinum, Praha. Potocký, R., Kalas, J., Komorník, J. & Lamoš, F. (1986). Zbierka úloh z pravdepodobnosti a matematickej štatistiky. SNTL/Alfa, Praha/Bratislava. 6
Romano, J. P. & Siegel, A. F. (1986). Counterexamples in probability and statistics. Wadsworth & Brooks, Monterey. Zvára, K. & Štěpán, J. (2002). Pravděpodobnost a matematická statistika. Matfyzpress, Praha. 7