Pravděpodobnost a statistia Přílady a otázy Petr Hebá a Hana Salsá GAUDEAMUS 2011
Autoři: prof. Ing. Petr Hebá, CSc. Autoři: prof. RNDr. Hana Salsá, CSc. Recenzenti: doc. RNDr. Tatiana Gavalcová, CSc. Recenzenti: doc. Ing. Jiří Trešl, CSc. ISBN 978-80-7435-140-2
OBSAH PŘEDMLUVA... 5 KAPITOLA 1: ŘEŠENÉ PŘÍKLADY... 7 1.1 Charateristiy statisticého souboru... 7 1.2 Počet pravděpodobnosti... 41 1.3 Úsudy na záladě náhodného výběru... 115 KAPITOLA 2: POSOUZENÍ SPRÁVNOSTI VÝROKŮ... 149 2.1 Charateristiy statisticého souboru... 149 2.2 Náhodné jevy a jejich pravděpodobnosti... 156 2.3 Disrétní náhodné veličiny a jejich rozdělení... 159 2.4 Spojité náhodné veličiny a jejich rozdělení... 161 2.5 Bodové a intervalové odhady... 164 2.6 Testování statisticých hypotéz... 167 2.7 Ostatní... 169 KAPITOLA 3: POUŽITÉ SYMBOLY A VZORCE... 173 DOPORUČENÁ LITERATURA... 192
Inspiration exists, but it has to find you woring Pablo Picaso
Předmluva Vnímáme pravděpodobnostní a statisticé myšlení jao přirozenou součást potřebných znalostí aždého vzdělaného člověa. Pro absolventa vysoé šoly, zaměřené na oblast společensých či technicých věd, se vša tato schopnost považuje (nebo aspoň měla by považovat) za naprosto samozřejmou součást (studiem či jina) zísaných celových vědomostí. Z tohoto důvodu považujeme za hlavní cíl předládané pomůcy co nejvíce usnadnit studentům (i ostatním zájemcům o tuto problematiu) vstupní ro do tohoto způsobu uvažování. Ze zušeností víme, že zísat pravděpodobnostní způsob myšlení jen čtením doporučené nihy nebo/i poslechem přednáše, téměř nejde. Především je nutné samostatně vyřešit dostatečný počet příladů a onrétních úloh. Student si při počítání příladů postupně uvědomuje pestrost různých formulací relativně podobných zadání. Začíná pomalu vnímat existenci různých záonitostí náhody srytých do různých modelů a mnohých pravidel, vzorců či jiných nástrojů pravděpodobnostního počtu. Naprosto stejně má student možnost při řešení příladů a úloh z oblasti statisticého zobecňování z výběru na soubor pochopit užitečnost a způsoby využití náhodných výběrů pro tento typ úsudů. Snad se nepochybuje o tom, že statisticá induce je pro výzum téměř všech vědních oborů velice potřebná. Navíc s využitím výběrů se aždý setává v různých šetřeních a průzumech, něteří i v náročnějších statisticých metodách, ale přesto dobře porozumět této problematice už ta snadné není. Hlavním úolem nabídnutých sript je posytnout studentům předmětu Pravděpodobnost a statistia dostate jednoduchých, relativně úzce obsahově zaměřených řešených příladů a vysvětlených správných odpovědí na různě formulované otázy (typu ANO NE). Každý (tedy i začáteční s minimálními matematicými znalostmi), by měl zvládnout závěrečný test, ale zároveň učinit ten zmíněný první ro zísání představy o potřebě exatního myšlení a vantitativního způsobu uvažování. Obsahově jsou sripta rozdělena na část věnovanou popisné statistice, onrétně popisným charateristiám statisticých souborů a jejich matematicým vlastnostem. Postupně se čtenář na příladech seznamuje se sta- - 5 -
tisticou terminologií a používanou symboliou. Mezi obtížnější přílady patří výpočet charateristi poměrných čísel a různé formy rozladu rozptylu na vnitrosupinovou a mezisupinovou variabilitu. Pro agregaci i použití statisticých metod je to velice potřebné, a proto tato zaměřených příladů je více než jiných. Převládající druhou částí problematiy je pravděpodobnostní počet. Od náhodných jevů a jejich pravděpodobnosti, přes rozdělení disrétních a spojitých náhodných veličin, až nejpoužívanějším pravděpodobnostním modelům běžných úloh a situací. Třetí část je věnována dvěma záladním typům statisticých úsudů, terými jsou odhady neznámých charateristi souborů a testy hypotéz o těchto charateristiách na záladě na záladě prostého náhodného výběru. Formálně první apitolou jsou řešené přílady z uvedených tří oblastí pravděpodobnosti a statistiy, ve druhé jsou otázy s podrobným vysvětlením správných odpovědí a přílohou sript jsou všechny symboly a vzorce, používané v předmětu Pravděpodobnost a statistia. Jejich zařazení jsme sice zvažovali, ale považujeme je celově za užitečné a prospěšné. Při vytváření podobného textu se lze jen velice těžo zcela vyhnout chybám, taže budeme vděčni za jaéoli připomíny. Děujeme recenzentům a paní Ing. Olze Hebáové za lasavé přečtení a posouzení původního textu, terý jsme upravili podle jejich připomíne. Listopad 2009 Petr Hebá a Hana Salsá Dodate e 2. vydání Druhé opravené vydání vychází s dvouletým odstupem. Děujeme čtenářům sript za upozornění na něteré chyby, teré se snažíme tímto vydáním napravit. U něolia příladů jsme upravili formulace řešení. Zvláštní poděování patří dvěma studentám oboru finanční management na FIM UHK Marétě Černé a Lucii Melšové, za ontrolu správnosti výsledů úloh prvého vydání a za přehledné doumentování nalezených chyb nebo nepřesností. Srpen 2011 Autoři - 6 -
1 Řešené přílady 1.1 Charateristiy statisticého souboru Přílad 1 Rozdělení ročních příjmů všech 1 000 pracovníů velé firmy (ve 100 tis. Kč) je dáno následující tabulou rozdělení četností. Příjem ve 100 tis. Kč 2 3 4 5 6 Počet pracovníů 500 300 150 40 10 Pomocí (vždy jen jedné) vhodné charateristiy úrovně, variability, šimosti a špičatosti popište uvedené rozdělení. Výsledy stručně omentujte. Řešení Máme dispozici údaje o ročních příjmech všech zaměstnanců firmy (záladního souboru). Pomocné výpočty uazuje tabula. X N X N 2 X N ( X X) 2 N ( X X) 3 N ( ) 4 X X N 2 500 1000 2000 288,800-219,4880 166,811 3 300 900 2700 17,280 4,1472 0,995 4 150 600 2400 230,640 285,9936 354,632 5 40 200 1000 200,704 449,5770 1007,052 6 10 60 360 104,976 340,1222 1101,996 Součet 1000 2760 8460 842,400 860,3520 2631,487 Charateristiy úrovně (polohy znau): Aritmeticý průměr K (276 tis. Kč), i= 1 1 2760 X = X N = = 2,76 N 1000 modus ˆX = 2, 0 (200 tis. Kč). - 7 -
Strány 8-127 jsou odstraněny
Přílad 106 V náhodném výběru 400 domácností je 30 % domácností bezdětných, 40 % domácností s jedním dítětem a 30 % se dvěma dětmi. a) Stanovte průměr, medián, modus a směrodatnou odchylu počtu dětí ve výběru. b) V jaém intervalu můžeme odhadovat s pravděpodobností 0,95 podíl bezdětných domácností v populaci? Řešení 0 120 + 1 160 + 2 120 a) Výběrový průměr x = = 1. Modus ˆx = 1 je nejčastěji se vysytující počet dětí v domácnosti výběru. Medián xɶ = 1 je 400 prostřední hodnota v řadě uspořádaných hodnot výběru (v tomto případě aritmeticý průměr dvou prostředních jednote). Polovina domácností má méně než jedno nebo právě jedno dítě, polovina má jedno nebo více dětí. Výběrový rozptyl 2 2 2 2 1 120 + 0 160 + 1 120 s ( x) = 0,601 504 399 a výběrová směrodatná odchyla s( x) = 240 / 399 0,776 dětí. b) Podíl bezdětných domácností ve výběru je 0,3. Přípustná chyba odhadu ( ) 0,3 1 0,3 podílu 0,05 ( p) = 1,96 = 0,045, tedy 4,5%. 400 Podíl bezdětných domácností v populaci můžeme s pravděpodobností 0,95 očeávat v intervalu 0,3 ± 0,045, tedy v intervalu od 25,5 % do 34,5 %. Přílad 107 Z 20 náhodně vybraných domácností jedné obce je šest domácností dvoučlenných, sedm domácností tříčlenných, čtyři domácnosti jsou čtyřčlenné a tři domácnosti jsou pětičlenné. a) Stanovte výběrový průměr počtu členů domácnosti, výběrovou směrodatnou odchylu počtu členů domácnosti a medián počtu členů domácnosti ve výběru. - 128 -
Strány 129-148 jsou odstraněny
2 Posouzení správnosti výroů 2.1 Charateristiy statisticého souboru 1 Zvýšíme-li aždému mzdu o 500 Kč, rozptyl mezd se nezmění. Když Y i = a + X i pro aždé i = 1, 2,, N, de a je libovolné číslo (onstanta) a N je rozsah souboru (počet pozorování v populaci), pa pro aritmeticý průměr platí, že Y = a + X a pro rozptyl platí, že Var (Y) = Var (X). Totéž platí ve výběru rozsahu n, že průměr se změní, ale variabilita hodnot (měřená rozptylem) proměnné X se nezmění, dyž e aždé výběrové hodnotě x i se přičte libovolné (ladné či záporné) číslo. Jde o záladní vlastnosti aritmeticého průměru a rozptylu, teré lze snadno doázat. 2 Poles mzdy všech zaměstnanců o 10 % sníží rozptyl mezd o 19 %. Když Y i = bx i pro aždé i = 1, 2,, N, de b je nenulová onstanta a N je rozsah souboru (počet pozorování v populaci), pa pro aritmeticý průměr platí, že Y = bx a pro rozptyl platí, že Var Y) = b2 Var(X). Zde b = 0,9, taže rozptyl Var(Y) = 0,9 2 Var(X) = 0,81Var(X). Násobíme-li všechny hodnoty x nenulovou onstantou, změní se sice stejným způsobem průměr i směrodatná odchyla hodnot y, ale rozptyl se změní o násobe druhé mocniny této onstanty. 3 Násobíme-li všechny četnosti stejným nenulovým číslem, průměr se nezmění. Když N, Y = cn, X, = 1, 2,, K, de K je počet různých hodnot či variant proměnných X i Y, lze doázat, že záladní momentové i z nich odvozené charateristiy se nezmění. Zde X = Y taže A A A K Y = Y N,Y XcN,X = 1 = 1 = K K = X. N cn K,Y = 1 = 1,X 4 Modus a medián počtu nevydělávajících členů rodiny v ČR může být stejné číslo. Nejčetnější hodnota (modus) může být stejné číslo jao prostřední hodnota souboru uspořádaného podle veliosti hodnot (medián). 5 Zvýšení všech hodnot X o 10 nezmění rozptyl X v tomto souboru. Viz výro 1. A A - 149 -
Strány 150-166 jsou odstraněny
2.6 Testování statisticých hypotéz 131 Hladina významnosti je pravděpodobnost správného zamítnutí H 0 ve prospěch H 1. Hladina významnosti je pravděpodobnost chybného zamítnutí testované hypotézy H 0 a značí se α. 132 Součet síly testu a pravděpodobnosti chybného přijetí testované hypotézy je jedna. Síla testu je pravděpodobnost správného přijetí alternativní hypotézy a značí se 1 β, de β je pravděpodobnost chybného přijetí testované hypotézy. N A 133 Hladina významnosti je pravděpodobnost správného přijetí alternativní hypotézy. Viz výro 131 a 132. Právě toto je síla testu. 134 Hladina významnosti je pravděpodobnost chybného přijetí testované hypotézy. Viz předchozí tři výroy. Toto je pravděpodobnost β. 135 Testy hypotézy o populačních charateristiách a intervaly spolehlivosti pro tyto charateristiy mají mnoho společného. Je to pravda, ale zvláště při jednostranných testech a dvoustranných intervalech spolehlivosti (nebo naopa) je na místě velá opatrnost. Snadno totiž může dojít chybné interpretaci výsledů. Je proto lepší nevycházet při testování hypotéz z intervalů spolehlivosti a raději dodržovat doporučený testovací postup. 136 Při testování hypotéz můžeme vždy volit hladinu významnosti. Každopádně by vša hladina významnosti neměla být větší než 0,1 (raději 0,05 nebo doonce 0,01 či nižší). Oblíbené P-hodnoty, teré uvádějí statisticé paety, jsou sice pro výzumnía výpočetní i interpretační výhoda, ale snadno může dojít tendenci připustit i vyšší hladinu významnosti, jen aby byla testovaná hypotéza zamítnuta. Je aždopádně nutné volit hladinu významnosti předem podle závažnosti zamítnutí testované hypotézy, a nioli až podle veliosti P-hodnoty. 137 Kriticý obor je interval, ve terém se s pravděpodobností 1 α nachází odhadovaná charateristia populace. Výro je nepravdivý. Kriticý obor je interval hodnot testového ritéria, při terých na zvolené hladině významnosti zamítáme testovanou hypotézu. Jina řečeno, je-li vypočítaná hodnota testového ritéria z riticého oboru, zamítneme testovanou hypotézu na zvolené hladině významnosti. N N A A N - 167 -
Strány 168-172 jsou odstraněny
3 Použité symboly a vzorce Symbolia X X i, i = 1, 2,, N x i, i = 1, 2,, n Proměnná (ve statistice), náhodná veličina (v počtu pravděpodobnosti). Hodnota i-tého pozorování proměnné X v populaci, de N je rozsah (počet hodnot) v populaci. Hodnota i-tého pozorování proměnné X ve výběru, de n je rozsah (počet hodnot) ve výběru. x Hodnota náhodné veličiny X. N, = 1, 2,..., K, N K = = 1 N P = N K = 1 N n, = 1, 2,..., K, n p = n = n n Počet hodnot (absolutní četnost) -té varianty (nebo supiny hodnot) proměnné X v populaci, de K je počet variant (nebo supin hodnot) populace rozsahu N. Podíl (relativní četnost) počtu hod-not -té varianty (nebo -té supiny hodnot) proměnné X v populaci rozsahu N. Počet hodnot (absolutní četnost) -té varianty (-té supiny hodnot) proměnné X ve výběru, de K je počet variant (supin hodnot) výběru rozsahu n. Podíl (relativní četnost) počtu hodnot -té varianty (nebo -té supiny hodnot) proměnné X ve výběru rozsahu n. - 173 -
Strány 174-190 jsou odstraněny
Kriticý obor veliosti alfa Kriticý obor veliosti alfa W α Oblast hodnot testového ritéria, při terých se zamítá H0 na hladině významnosti α. Oboustranná alternativa Test H 0 : X = a proti H 1 : X a Test H 0 : P = a proti H 1 : P a Průměr a relativní četnost { α } Wα = u : u > u 1 2 Levostranná alternativa Test H 0 : X a proti H 1 : X < a Test H 0 : P a proti H 1 : P < a Pravostranná alternativa Test H 0 : X a proti H 1 : X > a Test H 0 : P a proti H 1 : P > a { } W = u : u < u α α { } Wα = u : u > u 1 α Rozptyl normálního rozdělení Oboustranná alternativa 0 2 Test H : σ = a proti H : σ a 1 2 W α ( ) v : v < vα 2 n 1 = nebo v: v > v1 α 2( n 1) Levostranná alternativa 0 2 Test H : σ a proti H : σ < a Pravostranná alternativa 0 2 Test H : σ a proti H : σ > a 1 1 2 2 { α( )} W = v: v < v n 1 α { 1 α( )} W = v: v > v n 1 α - 191 -
4 Doporučená literatura 1. Hebá P., Kahounová J.: Počet pravděpodobnosti v příladech. Informatorium, Praha, 2010 2. Hindls R., Hronová S., Seger J., Fischer J.: Statistia pro eonomy. Professional Publishing, Praha, 2007 3. Salsá H.: Statisticé metody. Eleronicý urz. https:\\www.oliva.uh.cz, Univerzita Hradec Králové, 2006-192 -
Název: Pravděpodobnost a statistia Název: Přílady a otázy Autoři: prof. Ing. Petr Hebá, CSc., prof. RNDr. Hana Salsá, CSc. Sazba: Ing. Miloslav Proeš Ro a místo vydání: 2011, Hradec Králové Vydání: druhé Nálad: 250 Vydalo naladatelství GAUDEAMUS, Univerzita Hradec Králové jao svou 1081. publiaci. ISBN 978-80-7435-140-2-193 -