Pravděpodobnost a statistika pro SŠ RNDr. Blanka Šedivá, Ph.D., katedra matematiky, Fakulta aplikovaných věd Západočeské univerzity v Plzni sediva@kma.zcu.cz 28. března 2012 Počátky teorie pravděpodobnosti se kladou do 17. století a spojují se jmény Pascal a Fermat a s hazardními hrami. Dnes asi každý o pojmu pravděpodobnosti určitou představu má. Její použití v matematice však dlouho naráželo na absenci přesné a přitom použitelné definice tohoto pojmu. Základy dnešního matematického pojetí teorie pravděpodobnosti tak položil až ve 30. letech 20. století N. A. Kolmogorov třemi definičními požadavky: Pravděpodobnosti jevů jsou čísla mezi 0 a 1. Pravděpodobnost, že vůbec nějaký jev nastane, je 1. Pravděpodobnost, že nastane některý z navzájem se vylučujících jevů, je rovna součtu jejich pravděpodobností. A to pro každých spočetně mnoho jevů. Novinkou nebyl případ konečného počtu jevů, kdy jde o požadavky jistě přirozené a intuitivní, ale rozřešení případu, kdy je jevů víc - s nekonečnem je v matematice vždycky nějaký problém. V praxi a tedy i v teorii pravděpodobnosti se přitom s nekonečným počtem jevů nutně setkáváme. A právě požadavek platnosti třetího axiomu i pro spočetně mnoho jevů (σ-aditivita pravděpodobnosti) se ukázal pro rozvoj pravděpodobnosti podstatný. Tento materiál je ukázkou vybraných motivačních úloh, které jsou založené na principu pravděpodobnosti, a které mají zajímavé nebo nečekané výsledky. Cílem je ukázat studentům zajímavé úlohy, které by je motivovali pro další studium a hlubší zájem o pravděpodobnost a statistiku. 1
V dalším budeme potřebovat následující znalosti z oblasti kombinatoriky a pravděpodobnosti: Základní pojmy z oblasti náhodných jevů Náhodný pokus je každý proces, jehož výsledek je při jinak stejných počátečních podmínkách nejistý; výsledek nejsme schopni s jistotou předpovědět; množinu všech možných výsledků náhodného pokusu označujeme Ω. Náhodný jev je jev A je podmnožina množiny Ω (A Ω); náhodné jevy značíme velkými latinskými písmeny z počátku abecedy A,B,C,... ; celá množina Ω je jev jistý; prázdná množina je jev nemožný. Elementární jevy jsou ω i jsou minimální jevy různé od jevu nemožného elementární jevy jsou párově neslučitelné (ω 1, ω 2 různé elementární jevy, pak ω 1 ω 2 ); každý jev A lze vyjádřit jako množinu elementárních jevů (A {ω 1, ω 2,... }). Operace s jevy jedná se především o negaci jevu, průnik jevů, sjednocení jevů a podobně. Protože jevy mají charakter množin, můžeme je graficky znázorňovat pomocí Vénnových diagramů Kombinatorické vzorce pro určování počtu permutací, variací a kombinací permutace n prvků (kolika způsoby lze uspořádat n-tici prvků ); uspořádání prvků skupiny M v daném pořadí počet permutací P n = n! pokud M se skládá z i 1, i 2,..., i k stejných prvků, je počet permutací P n = počet permutací s opakováním P n = n n n! i 1!i 2!... i k! variace n prvků k-té třídy (kolika způsoby lze z n-tici prvků vybrat k-tici, přičemž záleží na pořadí výběru) počet variací V k n = n! (n k)! počet variací s opakováním V k n = n k = n(n 1)... (n k + 1) kombinace n prvků k-té třídy (kolika způsoby lze z n-tici prvků vybrat k-tici, přičemž nezáleží na pořadí výběru) ( ) n počet kombinací Cn k n! = = k (n k)!k! ( ) n + k 1 počet kombinací s opakováním Cn k = k 2
Klasická definici pravděpodobnosti a základní pravidla pro počítání s pravděpodobností Definice P (A) = počet možností odpovídajících jevu A ; počet všech možností Základní pravidla pro počítání s pravděpodobnostmi, především P (nona) = 1 P (A) a P (A B) = P (A) + P (B) P (A B) Zavedení pojmu nezávislost dvou jevů A a B a výpočet pravděpodobnosti průniku těchto jevů P (A B) = P (A) P (B) Zavedení pojmu jev A podmíněný jevem B a určení pravděpodobnosti tohoto podmíněného jevu P (A B) = P (A B) P (B) Větu o úplné pravděpodobnosti Necht B 1, B 2,... tvoří úplný systém disjunktních jevů, a necht P (B i ) > 0 pro i = 1, 2,..., dále uvažujme jev A je libovolný jev příslušný témuž náhodnému pokusu. Pak platí P (A) = P (A B i ) P (B i ) i Bayesovu inverzní větu Předpoklady stejné jako u předcházející věty (navíc P (A) 0) a platí platí pro všechna k = 1, 2,..., n P (B k A) = P (A B k) P (B k ) n P (A B i ) P (B i ) i=1 3
Vybrané motivační úlohy 1. Klasická definice pravděpodobnosti: Kolikrát minimálně musíme hodit kostkou, aby pravděpodobnost, že aspoň jednou padne šestka, byla větší než 99 procent? ( ) n 5 Řešení: Pravděpodobnost, že při n hodech ani jednou nepadne šestka je. Pravděpodobnost, ( ) 6 n 5 že při n hodech padne aspoň jednou šestka je P n = 1. 6 V Excelu můžeme vytvořit tabulku a graf, vyjadřující závislost P n na počtu hodů n. Hledáme nejmenší n tak, aby P n > 0.99 a dostáváme n = 26. 2. Paradox narozenin: Necht je v místnosti je n lidí. Cílem je určit pravděpodobnost, že dva lidé mají narozeniny ve stejný den. Alternativně, lze položit otázku: Kolik je třeba v místnosti lidí, aby pravděpodobnost, že se v místnosti nachází dva lidé, kteří mají narozeniny ve stejný den, byla 90%. Řešení: Budeme předpokládat, že narozeniny jsou rovnoměrně rozloženy během celého roku (uvažujeme nepřestupný rok 365 dnů). Počet všech možností je 365 n. Počet možností nepříznivých situaci je 365 364 (365 n + 1), počet nepříznivých situací lze vyjádřit také jako permutace s parametry (365, n). Z údajů v tabulce vidíme, že pro skupinu n = 25 je pravděpodobnost, že alespoň dva mají narozeniny ve stejný den rovna 56.87%, pro skupinu n = 50 je tato pravděpodobnost rovna 97.04%. 3. Příběh o žalářníkovi: Výstřední žalářník se rozhodl dát vězni odsouzenému k smrti šanci. Přinese mu 12 černých a 12 bílých kuliček. Pak mu dá dvě prázdné urny. Sdělí mu, že zítra přijde kat, náhodně si vybere jednu urnu a z ní náhodně vybere jednu kuličku. Bude-li bílá, dostane vězeň milost. V opačném případě bude ortel smrti neprodleně vykonán. Jak má vězeň rozdělit kuličky do uren, aby maximalizoval pravděpodobnost svého osvobození? Řešení: Označme b počet bílých kuliček v první urně a c počet černých kuliček v první urně. Pak pravděpodobnost vytažení bílé kuličky je P (b, c) = 1 2 b c + b + 1 2 12 b (12 b) + (12 c) Rozborem v Excelu najdeme, že maximální pravděpodobnost je dosažena pro hodnoty b = 1 a c = 0, tedy do jedné urny dát jednu bílou kuličku a zbytek kuliček dát do druhé urny. Pravděpodobnost milosti je v takovémto případě p = 73.91%. 4
4. Použití Bayesovy věty: Někteří krtečci trpí zákeřnou žížalovkou. Touto chorobou trpí 0.01% krtčí populace. Na žížalovku existuje test s následující úspěšností: pokud krteček trpí žížalovkou, tak mu test s 90% úspěšností odpoví, že chorobu má (s 10% pravděpodobností, že chorobu nemá); pokud krteček netrpí žížalovkou, tak mu test s 98% úspěšností odpoví, že chorobu nemá (s 2% pravděpodobností, že chorobu má). Jeden krteček si nechal udělat test a test mu odpověděl, že chorobu má. Určete pravděpodobnost, že krteček opravdu chorobu má. Řešení: Jedná se aplikaci Bayesovy inverzní věty pro podmíněnou pravděpodobnost P (B i A) = P (A B i ) P (B i ) n i=1 P (A B i) P (B i ). Označme B 1 stav, kdy krteček žížalovkou trpí, podle zadání P (B 1 ) = 0.01% a Označme B 2 stav, kdy krteček žížalovkou netrpí, pravděpodobnost dopočteme P (B 2 ) = 1 P (B 1 ) = 99.99%. Dále označme A jev, kdy výsledek testu je positivní (test odpovídá, že krteček žížalovku má), pak pravděpodobnost, že výsledek testu je positivní, když krteček chorobu má, je podle zadání P (A B 1 ) = 90% a dopočteme též pravděpodobnost negativního výsledku P (nona B 1 ) = 1 P (A B 1 ) = 10%, analogicky pravděpodobnost positivního výsledku u zdravého krtečka je podle zadání P (A B 2 ) = 2% a dopočítaná pravděpodobnost negativního výsledku u zdravého krtečka je P (nona B 2 ) = 1 P (A B 2 ) = 98%. Pravděpodobnost, že krteček má positivní výsledek testu je P (A) = P (B 1 ) P (A B 1 ) + P (B 2 ) P (A B 2 ) = 0.0001 0.90 + 0.9999 0.02 = 0.020088 Pravděpodobnost, že krteček, který má positivní test je opravdu nemocný je P (B 1 A) = P (A B 1) P (B i ) P (A) = 0.0001 0.90 0.020088 Rozmyslete situaci, kdy krteček chodí na testy opakovaně. = 0.00448 = 0.448% 5. Dvojitě anonymní anketa: Provedeme následující pokus: Necháme studenty hodit korunou a dvojkorunou a ti, kterým padl na koruně líc napíšou na lísteček odpověd (ANO/NE) na citlivou otázku (např. zda opisují, pijí alkohol, chodí za školu, apod.). Ostatní studenti napíší, zda jim padl na dvojkoruně líc (ANO/NE). Jakým způsobem určíme podíl studentů, kteří na citlivou otázku odpověděli ANO? Řešení: Označme B 1 studenty, kteří odpovídají na citlivou otázku, zřejmě P (B 1 ) = 1 2 a dále B 2 jsou studenti, kteří odpovídali na otázku o dvojkoruně. Dále označme A situaci, že odpověděli ANO, pak P (A B 2 ) = 1 2 a P (A B 1) je námi hledaný podíl studentů, kteří odpovídali na citlivou otázku a odpověděli ANO. Přitom P (A) známe, tuto hodnotu určíme jako podíl všech studentů, kteří odpověděli ANO - na libovolnou otázku. Dostáváme rovnici o jedné neznámé resp. P (A) = P (B 1 ) P (A B 1 ) + P (B 2 ) P (A B 2 ), P (A) = 1 2 P (A B 1) + 1 2 1 2 5
6. Úloha demonstrující testování hypotéz: Mějme v pytlíku dvě naprosto identické kuličky, jedná je však modrá, druhá červená. Vytáhněme z pytlíku náhodně jednu kuličku a znovu ji do pytlíku vložme. Takto náhodně budeme z pytlíku tahat kuličku 30 krát. Lze určit, kdy je vytažení kuliček dané barvy náhodné (tj. ten, kdo tahá kuličky není schopen rozlišit modrou a červenou podle hmatu)? Řešení: Zavedeme pojem nulová hypotéza, tj. hypotéza odpovídající situaci, kdy kuličky jsou tahány náhodně. Pod pojmem alternativní hypotéza budeme rozumět situaci, kdy kuličky nejsou tahány náhodně, tj. podezřele často je vytažena červená kulička, resp. modrá kulička. Dále určíme pravděpodobnost, že vytáhneme k krát červenou kuličku a tím (30 k) krát modrou kuličku. Jedná se o binomické rozdělení založené na kombinacích P k = ( ) 30 k ( ) k 1 2 ( 1 2 Hodnoty pro jednotlivé k je v následující tabulce. ) 30 k = ( ) 30 k ( 1 2 ) 30 k pravděpodobnost v % obor k pravděpodobnost v % obor 0 0,00000009 Z 16 13,54354 P 1 0,0000028 Z 17 11,15351 P 2 0,000041 Z 18 8,05531 P 3 0,00038 Z 19 5,08756 Z 4 0,00255 Z 20 2,78916 Z 5 0,01327 Z 21 1,33246 Z 6 0,05530 Z 22 0,54510 Z 7 0,18960 Z 23 0,18960 Z 8 0,54510 Z 24 0,05530 Z 9 1,33246 Z 25 0,01327 Z 10 2,78916 Z 26 0,00255 Z 11 5,08756 P 27 0,00038 Z 12 8,05531 P 28 0,000041 Z 13 11,15351 P 29 0,0000028 Z 14 13,54354 P 30 0,00000009 Z 15 14,44644 P 6
Bude-li někdo tvrdit, že 30 krát vytáhl červenou kuličku, nebudeme mu věřit a pojmeme podezření, například že jeho ruce jsou schopny nějak odlišit modrou a červenou barvu. Jeho tvrzení zamítneme (v tabulce označeno jako obor Z). Budeme se zdráhat uvěřit i případům, kdy vytáhl modrou kuličku pouze jednou nebo dvakrát. Musíme se však rozhodnout, dokdy budeme tvrzení odmítat. Ve statistice a dalších oblastech využívajících statistiku, např. v biomedicíně, volíme hranici, kdy součet pravděpodobností nejméně pravděpodobných případů dosáhl 5%. Naše případy, které spadají do tohoto intervalu jsou označeny Z. Obor Z představuje platnost alternativní hypotézy. My jsme si to vysvětlili například tím, že obě kuličky lze nějak odlišit a tedy, že statistika neodpovídá statistice, kdy jsou kuličky - jinak než zrakem - neodlišitelné. V medicíně bychom konstatovali, že léčba lékem B vykazuje statisticky významně jiné výsledky, než léčba lékem A. Statistický soubor můžeme dostat z výsledků, které jsme získali v minulosti (retrospektivní výzkum) nebo z výsledků postupu, který předem naplánujeme (prospektivní výzkum). Nejkvalitnějším typem studií, které v současnosti významně ovlivňují chod medicíny, jsou prospektivní dvojitě slepé, placebem kontrolované randomizované studie. Po celou dobu léčby ani pacient, ani lékař neví zda léčba probíhá pomocí léku A, léku B nebo placebem. 7
7. Úloha o rozdělení sázky: Hráči A a B spolu hrají sérii partií. Pravděpodobnost, že partii vyhraje hráč A je 50%, pravděpodobnost, že partii vyhraje hráč B je tedy také 50%. Výsledky jednotlivých partií jsou nezávislé. Celou částku, která je do hry vsazena získá ten hráč, který jako první vyhraje 6 partií. Hra byla přerušena ve chvíli, kdy hráč A dosáhl 5 vítězství a hráč B dosáhl 3 vítězství. V jakém poměru má být rozdělena částka mezi hráče Kolik průměrně partií je potřeba k tomu, aby se od stavu 5:3 dospělo do konce? Řešení: Za stavu 5:3 může hra pokračovat maximálně ještě 3 partie. Označme symbolem a vítězství hráče A a symbolem b vítězství hráče B. Pak všechny možné průběhy následujících her jsou uvedeny v tabulce. průběh pravděpodobnost vyhrávající počet her aaa 1/8 a 1 aab 1/8 a 1 aba 1/8 a 1 abb 1/8 a 1 baa 1/8 a 2 bab 1/8 a 2 bba 1/8 a 3 bbb 1/8 b 3 Vzhledem k tomu, že pravděpodobnost výhry hráče A je 7/8, měla by být vsazená částka rozdělena v poměru 7 : 1 ve prospěch hráče A. Průměrný počet partií potřebných k dokončení je střední hodnota náhodné veličiny vyjadřující počet partií k dokončení a podle obecného vztahu pro střední hodnotu EX = n p i x i i=1 dostáváme EX = 1 4 8 + 2 2 8 + 3 2 8 = 1, 75 8
8. Skupina m studentů chodí společně na oběd. Po jídle se náhodně určí jeden, kdo zaplatí za všechny. Jaká je pravděpodobnost, že se při k tém obědě (k = 1, 2,... ) stane, že bude platit někdo podruhé? Jaká je střední hodnota počtu obědů než k této situaci dojde? Označme X náhodnou veličinu, která udává pořadí obědu, na kterém se stane, že bude někdo platit podruhé. Počet všech možných posloupností placení k obědů je m k, počet takových posloupností, že pokaždé platí někdo jiný je m (m 1) (m 2) (m k+1). Pravděpodobnost, že do k tého m (m 1) (m 2) (m k + 1) oběda včetně nedošlo k situaci, že musí platit někdo podruhé je, m k pravděpodobnost, že k této situaci během prvních k obědů došlo je P (X k) = 1 m (m 1) (m 2) (m k + 1) m k. Pravděpodobnost, že k dané situaci (někdo platí podruhé) dojde právě na k tém obědě je P (X = k) = P (X k) P (X k 1) = = m (m 1) (m 2) (m k + 1) 1 1 + m k = m (m 1) (m 2) (m k + 2) (k 1) m k Pro m = 5, tj. společně chodí na oběd 5 studentů, platí Pořadí oběda pravděpodobnost, že bude někdo platit podruhé k = 1 p 1 = 0 k = 2 p 2 = 5 1 = 0, 2000 5 2 k = 3 p 3 = 5 4 2 = 0, 3200 5 3 k = 4 p 4 = 5 4 3 3 = 0, 2880 5 4 k = 5 p 5 = 5 4 3 2 4 = 0, 1536 5 5 k = 6 p 5 = 5 4 3 2 1 5 = 0, 0384 5 6 k = 7 p 6 = 0 m (m 1) (m 2) (m k + 2) m k 1 = Střední hodnota počtu obědů, kdy poprvé dojde k situaci, že někdo platí podruhé je EX = 3, 51. 9
9. Pomocí simulačních metod odhadněte hodnotu čísla π. Využijeme grafickou definici pravděpodobnosti, kde vyjádříme jednotlivé jevy jako plochy a pravděpodobnost vypočítáme pomocí podílu obsahu ploch. Budeme uvažovat čtverec o straně 2 a kružnici vepsanou do tohoto čtverce. Obsah čtverce označíme O c = 2 2 = 4 a obsah kruhu O k = πr 2 = π. Nyní budeme náhodně generovat body ležící uvnitř čtverce a zjišt ovat, zda leží též uvnitř kružnice. Podíl počtu bodů uvnitř kružnice P k a počtu bodů uvnitř čtverce P c aproximuje podíl obsahu kružnice a obsahu čtverce. P k O k = π P c O c 4 Tento vztah nám umožňuje odhadnout hodnotu π na základě simulací náhodných čísel. π P k P c 4 10
10. Máme řešit kvadratickou rovnici x 2 + px + q = 0, kde p, q jsou náhodná čísla v intervalu n; n. Cílem je určit pravděpodobnost, že kořeny kvadratické rovnice budou imaginární. Kořeny kvadratické rovnice x 1,2 = p ± p 2 4q jsou určeny známým vzorcem. Budeme hledat 2 pravděpodobnost, že kořeny jsou imaginární, tj. q > p2. Graficky se jedná o obsah plochy nad 4 parabolou: Obrázek 1: Paraboly q(p) = p2 4 pro různé definiční obory p 2; 2, p 4; 4 a p 8; 8 Obsah plochy můžeme odhadnout jako v předcházejícím příkladu pomocí generování náhodných čísel. V rámci pokročilejší matematiky lze obsah plochy nad parabolou spočítat pomocí integrálního počtu Pro n (0; 4) platí, že obsah plochy pod parabolou je n n x 2 4 n3 dx =, obsah plochy nad parabolou 6 je 2n 2 n3 6, obsah celkového čtverce je (2n)2. Pravděpodobnost, že kořeny kvadratické rovnice budou komplexní je P n = 2n2 n3 6 = 1 (2n) 2 2 n 24. Pro n 4; + ) platí, že obsah plochy pod parabolou je 2 n 2 n x 2 4 dx = 4 3 ( n) 3, obsah plochy nad parabolou je 4 nn 4 3 ( n) 3 = 8 3 ( n) 3, obsah celkového čtverce je (2n) 2. Pravděpodobnost, že kořeny kvadratické rovnice budou komplexní je P n = 8 ( n) 3 3 = 2 (2n) 2 3 1. n 11
V následující tabulce jsou uvedeny hodnoty pravděpodobnosti, že kořeny budou komplexní, pro různé definiční obory parametrů p a q. (tj. p, q n; n n; n ) n pravděpodobnost v % n pravděpodobnost v % 1 0.458 15 0.172 2 0.417 16 0.167 3 0.375 17 0.162 4 0.333 18 0.157 5 0.298 19 0.153 6 0.272 20 0.149 7 0.252 21 0.145 8 0.236 22 0.142 9 0.222 23 0.139 10 0.211 24 0.136 11 0.201 25 0.133 12 0.192 50 0.094 13 0.185 75 0.077 14 0.178 100 0.067 Z údajů je vidět, že pravděpodobnost, že kořeny budou komplexní je pro větší parametry kvadratické rovnice poměrně malá. 12