Statistika (4ST201) Vytvoříme datový soubor, který obsahuje věk, výšku a pohlaví studentů tohoto semináře. V Excelu



Podobné dokumenty
Pravděpodobnost a aplikovaná statistika

Tomáš Karel LS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 7

Tomáš Karel LS 2012/2013

Pravděpodobnost a matematická statistika

Tomáš Karel LS 2012/2013

tazatel Průměr ve Počet respondentů Rozptyl ve

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pravděpodobnost a statistika

Tomáš Karel LS 2012/2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

Náhodná veličina a rozdělení pravděpodobnosti

KGG/STG Statistika pro geografy

2. Friesl, M.: Posbírané příklady z pravděpodobnosti a statistiky. Internetový zdroj (viz odkaz).

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Doporučené příklady k procvičení k 2. Průběžnému testu

Charakterizace rozdělení

TECHNICKÁ UNIVERZITA V LIBERCI

Vybraná rozdělení náhodné veličiny

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

22. Pravděpodobnost a statistika

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Cvičení ze statistiky - 5. Filip Děchtěrenko

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Zápočtová práce STATISTIKA I

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Náhodné (statistické) chyby přímých měření

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Statistika (KMI/PSTAT)

Pravděpodobnost a aplikovaná statistika

5. Jev B je částí jebu A. Co můžeme říct o podmíněné pravděpodobnosti? (1b)

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lineární regrese. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Tomáš Karel LS 2012/2013

Korelační a regresní analýza

Bodové a intervalové odhady parametrů v regresním modelu

NMAI059 Pravděpodobnost a statistika

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Téma 22. Ondřej Nývlt

Statistická analýza jednorozměrných dat

5) Ve třídě 1.A se vyučuje 11 různých předmětů. Kolika způsoby lze sestavit rozvrh na 1 den, vyučuje-li se tento den 6 různých předmětů?

Číselné charakteristiky a jejich výpočet

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tomáš Karel LS 2012/2013

Náhodné chyby přímých měření

pravděpodobnosti a Bayesova věta

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2]

Testování statistických hypotéz

4ST432. Kamil Kladívko. 1 Cena a výnos aktiva, volatilita Odhad očekávaného výnosu, interval spolehlivosti, test hypotézy...

MATEMATIKA III V PŘÍKLADECH

1. Klasická pravděpodobnost

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Charakteristika datového souboru

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Bodové a intervalové odhady parametrů v regresním modelu

Statistika pro geografy

Mnohorozměrná statistická data

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

12. cvičení z PST. 20. prosince 2017

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a aplikovaná statistika

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Cvičení ze statistiky - 9. Filip Děchtěrenko

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

1 Rozptyl a kovariance

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testy. Pavel Provinský. 19. listopadu 2013

Aproximace binomického rozdělení normálním

INDUKTIVNÍ STATISTIKA

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

4EK211 Základy ekonometrie

Transkript:

Statistika (4ST201) 1 Popsisná statistika (1. a 2. cvičení) 1.1 Úvodní příklad Vytvoříme datový soubor, který obsahuje věk, výšku a pohlaví studentů tohoto semináře. V Excelu určete: 1. Vytvořte histogram četností pro věk a výšku. 2. Spočtěte průměr, rozptyl, směrodatnou odchylku, kvantily (medián, dolní a horní kvartil, 95% kvantil) a modus pro věk a výšku. 3. Proveďte rozklad rozptylu výšky podle proměnné pohlaví. 1.2 Domácnosti Data najdete v souboru vypocty.xlsx. 1. List domacnosti. Zadání: U 31 domácností se sleduje 6 znaků: u (měsíční výdaje za potraviny), v (počet členů), w (průměrný věk vydělávajících členů), x (měsíční příjem), y (počet dětí), z (typ domácnosti podle hlavního zdroje příjmu). (a) Tabulky rozdělení četností pro jednotlivé znaky. (b) Histogramy četností. (c) Průměr, rozptyl, směrodatnou odchylku, kvantily, modus. (d) Proveďte rozklad rozptylu měsíčních výdajů za potraviny (proměnná u), kdy třídícím znakem je typ domácnosti podle hlavního příjmu, tj. podle proměnné z. 2. List vek. Spočítejte: aritmetický průměr, směrodatnou odchylka, medián, kvantily. 3. List zahranicni dluh. Spočítejte: tempa růstu, geometrický průměr. 1.3 Jak spočítat kvantil ze souboru hodnot Na n jednotkách jsme naměřili soubor hodnot x 1, x 2,..., x n. Uspořádaný soubor hodnot, t.j. neklesající posloupnost zapíšeme x (1) x (2)... x (n). Výběrový p-tý kvantil (0 < p < 1) definujeme vztahem { x([np]+1) np [np] x p = 1 2 (x (np) + x (np+1) ) np = [np] Výraz [np] znamená celou část čísla np, např. [5, 44] = 5, nebo [π] = 3. (1) Postupů jak určit kvantil je více, např. se může interpolovat mezi dvěma hodnotami. Proto se vám může stát, že různé softwary vám vrátí různé výsledky. Nicméně rozdíly ve výsledku, obzvlášť pro velký počet pozorování, jsou zanedbatelné. 1

Příklad, viz soubor vypocty.xls, list vek Máme dvanáct údajů o věku žadatelů o hypotéku. Určete medián, dolní kvartil (25% kvantil) a 97, 5% kvantil. i věk žadatelů věk žadatelů (uspořádaný) 1 42 23 2 25 24 3 25 25 4 25 25 5 24 25 6 25 25 7 28 28 8 39 28 9 32 31 10 31 32 11 28 39 12 23 42 Medián: 12 0, 5 = 6, [6] = 6, tedy x 0,5 = 1 2 (25 + 28) = 26, 5 Dolní kvartil: 12 0, 25 = 3, [3] = 3, tedy x 0,25 = 1 2 (25 + 25) = 25 97, 5% kvantil: 12 0, 975 = 11, 7, [11, 7] = 11, tedy x 0,975 = 42 1.4 Práce se vzorečky 1. Upravte vzorec rozptylu s 2 x = 1 n n i=1 (x i x) 2 do tzv. výpočetního tvaru s 2 x = x 2 x 2, kde x značí aritmetický průměr, tj. x = 1 n n i=1 x i. 2. Mějme n pozorování x 1, x 2..., x n a jejich rozptyl s 2 x = s 2 (x 1, x 2,..., x n ) = 1 n n i=1 (x i x) 2 Ukažte, že: (a) přičteme-li ke každému pozorování x 1, x 2,..., x n stejnou konstantu, rozptyl se nezmění, (b) vynásobíme-li každé pozorování x 1, x 2,..., x n stejnou konstantou, rozptyl vzroste druhou mocninou dané konstanty. 3. Celkový rozptyl proměnné x můžeme rozložit podle třídícího znaku, který nabývá k obměn, na vnitroskupinový a meziskupinový rozptyl. Vnitroskuponový rozptyl, s 2, je vážený průměr rozptylů uvnitř skupin a meziskupinový rozptyl, s 2 x, je vážený rozptyl skupinových průměrů od celkového průměru. Vzorečky používají následující notaci: s 2 x = s 2 + s 2 x (2) = k i=1 s2 i n i k i=1 n i + k i=1 (x i x) 2 n i k i=1 n i = k i=1 1 ni n i j=1 (x ij x i ) 2 n k i i=1 k i=1 n + (x i x) 2 n i k i i=1 n i Vyjděte z definice rozptylu a proveďte rozklad rozptylu, tj. upravte celkový rozptyl do 2

tvaru (2): s 2 x = 1 n = 1 n = k n i (x ij x) 2 i=1 j=1 k n i (x ij x i + x i x) 2 i=1 j=1 1.5 Další příklady příklad 1.5.1 geometrický průměr Inflace v pěti po sobě jdoucích letech postupně byla 20%, 50%, 30%, 20% a 5%. Určete průměrnou inflaci během těchto pěti let. příklad 1.5.2 harmonický versus aritmetický průměr Auto urazí vzdálenost 20 km. Prvních 10 km jede rychlostí 60 km/hod. a zbývajících 10 km jede rychlostí 40 km/hod. Určete průměrnou rychlost auta. příklad 1.5.3 harmonický versus aritmetický průměr Auto jede 24 minut. Prvních 12 minut jede rychlostí 60 km/hod. a zbývajících 12 minut jede rychlostí 40 km/hod. Určete průměrnou rychlost auta. příklad 1.5.4 vážený harmonický průměr Auto jede z města A do města B rychlostí 40 km/hod., z města B do města C rychlostí 50 km/hod., a z města C do města D rychlostí 60 km/hod. Vypočítejte průměrnou rychlost celé trasy, jestliže vzdálenost mezi A a B je 5 km, mezi B a C 3 km a mezi C a D je 5 km. příklad 1.5.5 V soukromé firmě je zaměstnáno 60 % mužů. Průměrná měsíční mzda žen je 25 000 Kč. Určete průměrnou měsíční mzdu mužů, je-li průměrná měsíční mzda v celé firmě 22 000 Kč. příklad 1.5.6 Určete hodnoty tří proměnných, víte-li, že jejich aritmetický průměr je roven 33, jejich geometrický průměr je roven 30 a jejich medián je roven 25. příklad 1.5.7 Ve firmě pracuje 20 osob s průměrným platem 7 200 Kč. zaměstnanec s platem 8 900 Kč odchází, nově přijatý pracovník dostává nástupní plat 6 500 Kč. Jak se změní průměrný plat pracovníků ve firmě? příklad 1.5.8 vliv konstanty na průměr a rozptyl Z denních měření teplot v měsíci srpnu byla spočten jejich průměr a směrodatná odchylka. Průměrná teplota je rovna 40 C a směrodatná odchylka teplot je 10 C. Převeďte průměrnou teplotu a směrodatnou odchylku teplot do stupňů Fahrenheita. Vztah mezi Celsiovou a Fahrenheitovou stupnicí je dán rovnicí F = 1.8C + 32, kde C jsou stupně Celsia a F jsou stupně Fahrenheita. příklad 1.5.9 Tabulka uvádí cenu, hmotnost a odolnost vůči otřesům (ESP) přehrávačů CD MP3. Pro všechny tři sledované proměnné určete jejich aritmetický průměr, rozptyl, výběrový rozptyl, 3

směrodatnou odchylku, výběrovou směrodatnou odchylku, variační koeficient, medián, 25% a 75% kvantil. typ přístroje cena (Kč) hmotnost (g) ESP (sek.) Philips EXP 2301 1325 195 100 Philips EXP 2460 1260 186 100 Philips EXP 2461 1331 186 100 Philips EXP 3373 2897 175 200 Philips EXP 3460 1533 180 200 Philips EXP 3463 1849 180 200 Philips EXP 3483 2025 180 200 1.5.1 Řešení příklad 1.5.1 24% příklad 1.5.2 48 km/hod. příklad 1.5.3 50 km/hod. příklad 1.5.4 48, 447 km/hod. příklad 1.5.5 20 000 Kč. příklad 1.5.6 x 1 = 20 x 2 = 25 x 3 = 54. příklad 1.5.7 Klesne na 7 080 Kč. příklad 1.5.8 F = 104 F σ F = 5, 69 F příklad 1.5.9 cena hmotnost ESP aritmetický průměr 1745,71 183,14 157,14 rozptyl 292040,20 36,12 2448,98 výběrový rozptyl 340713,57 42,14 2857,14 směrodatná odchylka 540,41 6,01 49,49 výběrová směrodatná odchylka 583,71 6,49 53,45 variační koeficient 0,31 0,03 0,31 medián 1533 180 200 25% kvantil 1325 180 100 75% kvantil 2025 186 200 4

2 Náhodné jevy, Pravděpodobnost (3. a 4. cvičení) 2.1 Kombinatorika (není součástí přednášky, předpokládá se znalost) Permutacemi n prvků rozumíme jejich různá uspořádání. P (n) = n! Permutace s opakováním je uspořádaná n-tice, přičemž mezi vybranými prvky je k skupin, které mají postupně n 1, n 2,..., n k stejných prvků. Musí platit, že n = k i=1 n i. P n 1,...,n k (n) = n! n 1!...n k! Variace k prvků z n je uspořádaná k-tice, v níž se žádný prvek neopakuje. V k (n) = n(n 1)... (n k + 1) = n! (n k)! Variace s opakováním je uspořádaná k-tice z n prvků, v níž se prvky mohou opakovat. (n) = nk V k Kombinace k prvků z n je neuspořádaná k-tice, v níž se žádný prvek neopakuje. C k (n) = ( ) n k = V k (n) k! = n! (n k)!k! Kombinace s opakováním je neuspořádaná k-tice z n prvků, které se v ní mohou opakovat. C k (n) = ( ) n+k 1 k příklad 2.1.1 Výbor má 10 členů 6 mužů a 4 ženy. a) Kolik je způsobů, jak zvolit předsedu, místopředsedu, jednatele a hospodáře? b) Co když předseda a místopředseda mají být opačného pohlaví? příklad 2.1.2 Kolika způsoby může nastoupit m chlapců a n dívek do zástupu tak, aby a) nejdříve stály dívky a pak chlapci, b) mezi žádnými dvěma chlapci nestála dívka? příklad 2.1.3 Na večírku je n lidí. Přitukne-li si skleničkou každý s každým, kolik ťuknutí by mohlo být slyšet? příklad 2.1.4 Musí mít aspoň dva obyvatelé městečka o 1500 obyvatelích stejné iniciály (jméno a příjmení začínají jedním ze 32 písmen)? 2.2 Pravděpodobnost klasická definice, vlastnosti Klasická definice pravděpodobnosti Nechť Ω je konečná množina stejně pravděpodobných výsledků pokusu. Potom pravděpodobností jevu A Ω nazýváme číslo P (A) = A Ω počet případů příznivých jevu A =. počet všech případů Vlastnosti pravděpodobnosti P ( ) = 0, P (Ω) = 1, P (A) = 1 P (A), P (A B) = P (A) + P (B) P (A B). 5

Nezávislost jevů Jevy A 1, A 2,, A n jsou nezávislé, jestliže {i1,i 2,...,i k } {1,2,...,n} P (A i1 A i2... A ik ) = P (A i1 ) P (A i2 ) P (A ik ). příklad 2.2.1 Jev A nastane, je-li dané číslo dělitelné 2, jev B, je-li dělitelné 3. Popište jev C = A B a dále jevy A C, A C, a A B. příklad 2.2.2 Jaká je pravděpodobnost, že slovem náhodně sestaveným z písmen A, A, A, E, I, K, M, M, T, T bude MATEMATIKA? příklad 2.2.3 Ve třídě 20 chlapců a 12 dívek jsou losem určeni 2 mluvčí. Jaká je pravděpodobnost, že obě pohlaví budou zastoupena? příklad 2.2.4 P (A) = 0, 3, P (B) = 0, 5, P (A B) = 0, 2. Jsou jevy A a B nezávislé? Jsou neslučitelné? příklad 2.2.5 V účtech je chyba. Jaká je pravděpodobnost, že aspoň jeden z nezávislých kontrolorů, nacházejících chybu s pravděpodobností 0, 90 a 0, 95, ji najde? příklad 2.2.6 Hazíme obyčejnou hrací kostkou tak dlouho, dokud nepadne číslo 6. Jaká je pravděpodobnost, že budeme muset hodit 1. jedenkrát, 2. právě třikrát, 3. nejméně čtyřikrát, 4. nejvíce šestkrát? příklad 2.2.7 Postupně vyndaváme koule z urny se 3 bílými, 5 černými a 4 červenými koulemi. Jaká je pravděpodobnost, že červenou vytáhneme dříve než bílou? 2.3 Podmíněná pravděpodobnost, Celková pravděpodobnost, Bayesův vzorec Podmíněná pravděpodobnost Podmíněná pravděpodobnost jevu A podmíněná jevem B: P (A B) = P (A B), je-li P (B) > 0. P (B) 6

Úplná pravděpodobnost Pro úplný disjunktní systém B 1, B 2,..., B N, kde P (B i ) > 0 i a P ( N i=1 B i) = 1 platí P (A) = N P (A B i )P (B i ). i=1 Bayesův vzorec Pro úplný disjunktní systém B 1, B 2,..., B N, kde P (B i ) > 0 i a P ( N i=1 B i) = 1 platí P (B k A) = P (A B k)p (B k ) N i=1 P (A B i)p (B i ). příklad 2.3.1 podmíněná pravděpodobnost Dvakrát hodíme kostkou. Jaká je pravděpodobnost, že součet přesáhne 10, víme-li, že na dvou kostkách padla aspoň jedna šestka? příklad 2.3.2 podmíněná pravděpodobnost V každé ze tří krabic je šest černých a sedm bílých koulí. Z první krabice se vybere koule a přemístí se do druhé krabice, která se promíchá. Z této druhé krabice se pak náhodně vybere jedna koule a vloží se do třetí krabice, která se též promíchá. Jaká je pravděpodobnost, že náhodně vybraná koule ze třetí krabice bude bílá? příklad 2.3.3 úplná pravděpodobnost V první urně je 6 bílých a 2 černé koule, ve druhé jsou 4 bílé a 2 černé koule. Náhodně zvolíme urnu a vytáhneme jednu kouli. Jaká je pravděpodobnost, že bude bílá? příklad 2.3.4 úplná pravděpodobnost Jste v televizní soutěži a máte možnost vyhrát auto. Auto je schováno v jedné ze tří zavřených garáží. Pro výhru stačí označit garáž, kde je auto schováno. Označíte garáž v které si myslíte, že je auto. Následně Vám moderátor soutěže otevře jednu z garáží a to takovou, kterou jste neoznačili a která je prázdná. Poté Vám moderátor nabídne změnit Vaše rozhodnutí můžete buďto zůstat u Vámi označené garáže, nebo označit druhou neotevřenou garáž. Změní se Vaše šance na výhru, změníte-li rozhodnutí a označíte druhou garáž? příklad 2.3.5 Bayesův vzorec V první zásuvce jsou 2 zlaté mince, ve druhé 1 zlatá a 1 stříbrná, ve třetí 2 stříbrné. Zvolíme náhodně zásuvku a vytáhneme minci. Jaká je pravděpodobnost, že v zásuvce zbude zlatá mince, jestliže jsme vytáhli stříbrnou? příklad 2.3.6 Bayesův vzorec Pravděpodobnost, že test na HIV je pozitivní, jestliže pacient je skutečně pozitivní je rovna 0,9 (senzitivita testu). Pravděpodobnost, že test je negativní a pacient je též skutečně negativní, je 0,95 (specificita testu). Ví se, že 2% z celkové populace je HIV pozitivní (incidence nemoci). Jaká je pravděpodobnost, že pacient je HIV pozitivní, byl-li test negativní? 7

Výsledky: pravděpodobnost 2.1 Kombinatorika příklad 2.1.1 variace, a) 5040, b) 2688 příklad 2.1.2 permutace, a) m!n!, b) m!(n + 1)! příklad 2.1.3 kombinace, n(n 1) 2 příklad 2.1.4 variace s opakováním, Ano (1024) 2.2 Výsledky: pravděpodobnost 1 příklad 2.2.2 151200 příklad 2.2.3 0, 484 příklad 2.2.4 a) jsou závislé, b) nejsou neslučitelné příklad 2.2.5 0, 995 příklad 2.2.6 příklad 2.2.7 1. 1 6 ; 2. ( 5 6 )2 1 6 = 0, 1157; 3. ( 5 6 )3 = 0, 5787; 4. 1 ( 5 6 )6 = 0, 6651 4 7 = 0, 571 2.3 Výsledky: podmíněná a celková pravděpodobnost, Bayesův vzorec 3 příklad 2.3.1 11 = 0, 2727 příklad 2.3.2 w...počet bílých koulí v každé krabici b...počet černých koulí v každé krabici W n...vytáhneme bílou kouli z n-té krabice B n...vytáhneme černou kouli z n-té krabice P (W n ) = P (W n W n 1 )P (W n 1 ) + P (W n B n 1 )P (B n 1 ) P (W n W n 1 ) = w+1 P (W n B n 1 ) = P (W 1 ) = P (B 1 ) = w w+b b w+b w+b+1 w w+b+1 17 příklad 2.3.3 24 = 0, 7083 příklad 2.3.4 A: změníme rozhodnutí a vyhrajeme auto A: nezměníme rozhodnutí a vyhrajeme auto B: označíme garáž, kde je auto B: označíme garáž, kde není auto (B a B tvoří úplný systém disjunktních jevů.) P (B) = 1 3, P (B) = 2 3 P (A B) = 0, P (A B) = 1 P (A B) = 1, P (A B) = 0 8

P (A) = P (A B)P (B) + P (A B)P (B) = 0 1 3 + 1 2 3 = 2 3 P (A) = P (A B)P (B) + P (A B)P (B) = 1 1 3 + 0 2 3 = 1 3 1 příklad 2.3.5 3 příklad 2.3.6 tp: test pozitivní tn: test negativní pp: pacient pozitivní pn: pacient negativní P (tn pp) = 0, 1 P (tp pp) = 0, 9 P (tn pn) = 0, 95 P (tp pn) = 0, 05 P (pp) = 0, 02 P (pp tn) = 0, 2144% 9

3 Náhodná veličina 3.1 Distribuční funkce, hustota, očekávaná hodnota, rozptyl příklad 3.1.1 Mějme funkci F (x) = c 9 x 2 pro x > 3 a F (x) = 0 jinde. 1. Pro jakou konstantu c je tato funkce distribuční funkce nějaké náhodné veličiny X? 2. Jaká je pravděpodobnost P (4 < X < 8)? 3. Jak vypadá hustota pravděpodobnosti této náhodné veličiny? 4. Určete očekávanou hodnotu této náhodné veličiny. (Očekávanou nebo také střední hodnotu náhodné veličiny X značíme E[X].) 5. Určete rozptyl této náhodné veličiny. (Rozptyl náhodné veličiny X značíme Var[X], nebo D[X], nebo také σ 2 (X), či σ 2 X.) příklad 3.1.2 Pro jakou hodnotu c je pravděpodobnostní funkcí náhodné veličiny X? ( ) 3 x P (x) = c pro x = 1, 2, 3,... 4 = 0 jinak, příklad 3.1.3 Na základě údajů o prodeji v posledních 4 týdnech bylo spočítáno, že počet zákazníků (náhodná veličina X), kteří během jedné hodiny zakoupí novou polévku, má rozdělení pravděpodobnosti dané tabulkou x 0 1 2 3 4 5 6 P (X = x) 0,15 0,16 0,20 0,18 0,15 0,10 0,06 Vypočítejte 1. P (X 4), 2. P (2 X < 6), 3. P (X > 2), 4. střední hodnotu náhodné veličiny X, 5. směrodatnou odchylku náhodné veličiny X. 10

3.2 Alternativní, Binomické, Hypergeometrické a Poissonovo rozdělení příklad 3.2.1 Pětkrát hodíme mincí. Pomocí distribuční funkce některého rozdělení vyjádřete pravděpodobnost, že aspoň dvakrát padl líc. Náhodná veličina X nechť udává, kolikrát padl líc. Určete její střední hodnotu E[X] a rozptyl Var[X]. příklad 3.2.2 Závod vyrábí v průměru 99,8% kvalitních výrobků. Jaká je pravděpodobnost, že mezi 500 vybranými budou více než 3 zmetky? příklad 3.2.3 Korektura pěti set stránek obsahuje 500 tiskových chyb. Určete pravděpodobnost toho, že na náhodně vybrané stránce budou aspoň tři chyby. příklad 3.2.4 Informační centrum navštíví v průměru 20 osob za hodinu. Jaká je pravděpodobnost, že během 15 minut nepřijde do kanceláře nikdo? příklad 3.2.5 Výrobky jsou dodávány v sériích po 100 kusech. Výstupní kontrola prohlíží z každé série 5 náhodně vybraných výrobků a přejímá ji, jestliže mezi vybranými výrobky není žádný zmetek. Čemu je rovna pravděpodobnost, že série nebude přijata, jestliže obsahuje 4% zmetků? příklad 3.2.6 V nádobě je 10 černých, 6 bílých a 4 modré koule. Náhodně s vracením vybereme 6 koulí. Jaká je pravděpodobnost, že ve výběru budou právě 1. 2 bílé, 3 černé a 1 modrá koule, 2. 2 bílé, 2 černé a 2 modré koule, 3. všechny koule černé? příklad 3.2.7 Náhodná veličina X udává kolik šestek padne při dvaceti hodech kostkou. V Excelu modelujte následující: 1. Pravděpodobnostní funkci X. Vytvořte graf pravděpodobnostní funkce. 2. Distribuční funkci X. Vytvořte graf distribuční funkce. 3. Spočtěte očekávanou hodnotu X podle definičního vzorečku E[X] = i x ip (X = x i ). 4. Spočtěte rozptyl X podle definičního vzorečku Var[X] = E[(X E[X]) 2 ]. 5. Aproximujte pravděpodobnostní funkci X pomocí Poissonova rozdělení a v grafu porovnejte pravděpodobnostní funkce. 6. Nechť X nyní udává počet líců při dvaceti hodech mincí. Přepočtěte body výše. 11

3.3 Normální rozdělení příklad 3.3.1 Délka výrobku v mm má N(68, 3; 0, 04). Jaká je pravděpodobnost, že délka náhodně odebraného výrobku bude mezi 68 a 69mm? příklad 3.3.2 Životnost svíčky (v km) má normální rozdělení s průměrem 10 000 a směrodatnou odchylkou 3000. Jaká je pravděpodobnost, že na vzdálenosti 4300 km nebude třeba měnit žádnou ze 4 svíček? příklad 3.3.3 Modelujte hustotu, f(x), a distribuční funkci, F (x), normálně rozdělené náhodné veličiny X v Excelu: 1. Vytvořte sloupeček hodnot x od 3.5 do 3.5 s krokem d = 0, 01. 2. Dohledejte vzorec hustoty normálního rozdělení a spočtěte f(x) pro vytvořená x. 3. Určete distribuční funkci F (x), přičemž integrál aproximujte: f(x)dx = i f(x i)d 4. Porovnejte získanou distribuční funkci normovaného normálního rozdělení se statistickými tabulkami. 5. Spočtěte E[X]. 3.4 Centrální limitní věta příklad 3.4.1 Zatížení letadla s 64 místy nemá překročit 6 000 kg. Jaká je pravděpodobnost, že při plném obsazení bude tato hodnota překročena, má-li hmotnost cestujícího střední hodnotu 90 kg a směrodatnou odchylku 10 kg? příklad 3.4.2 Jaká je pravděpodobnost, že při 100 hodech kostkou padne šestka nejvýše dvacetkrát? příklad 3.4.3 V určité oblasti je 3% nemocných malárií. Jaká je pravděpodobnost, že při kontrole 5 000 lidí najdeme 2,5% až 3,5% nemocných malárií? Výsledky: náhodná veličina 3.1 Výsledky: distribuční funkce, hustota, očekávaná hodnota, rozptyl příklad 3.1.1 1. c = 1 12

2. P (4 < X < 8) = 27 64 3. 18 x 3 pro x > 3, 0 pro x < 3 4. E[X] = 6 5. Var[X] = 13

příklad 3.1.2 c = 1 3 příklad 3.1.3 1. 0,84 2. 0,63 3. 0,49 4. E[X] = 2, 56 5. Var[X] = 1, 7568153 3.2 Výsledky: Alternativní, Binomické, Hypergeometrické a Poissonovo rozdělení příklad 3.2.1 Binomické, P (X 2) = 13 16 ; E[X] = 2, 5; Var[X] = 1, 25 příklad 3.2.2 výpočet najdete v listu nahvel 1. Pomocí binomického rozdělení: 0, 018865 2. Aproximace Poissonovým rozdělením: 0, 018988 příklad 3.2.3 Poissonovo, λ = 1, P (X 3) = 0, 0803 příklad 3.2.4 Poissonovo, λ = 5, P (0) = 0, 006738 příklad 3.2.5 Hypergeometrické, 0, 1881 příklad 3.2.6 Multinomické rozdělení Situace je obdobná jako u binomického rozdělení, tedy uvažujeme posloupnost n = 6 nezávislých náhodných pokusů. Ale místo dvou možných výsledků pokusu budeme však připouštět tři možné výsledky (bílá, černá nebo modrá koule). Např. jako π m označíme pravděpodobnost výběru modré koule v jednom pokusu, X m označíme počet pokusů v kterých jsme vybrali modrou kouli. Pravděpodobnostní funkci lze odvodit podobnou úvahou jako pro binomické rozdělení (binomické rozdělení je speciální případ multinomického). 1. P (X b = 2, X c = 3, X m = 1) = 6! ( 6 2!3!1! 20 2. P (X b = 2, X c = 2, X m = 2) = 6! ( 6 2!2!2! 20 3. P (X b = 0, X c = 6, X m = 0) = 6! ( 6 0!6!0! 20 ) 2 ( 10 ) 3 ( 4 20 ) 2 ( 10 ) 2 ( 4 20 20) 1 = 0, 135 20) 2 = 0, 081 ) 0 ( 10 ) 6 ( 4 0 20 20) = 0, 015625 3.3 Výsledky: Normální příklad 3.3.1 P (68 < X < 69) = 0, 9331 příklad 3.3.2 P = 0, 89 14

3.4 Výsledky: Centrální limitní věta příklad 3.4.1 0, 00135 příklad 3.4.2 0, 81 příklad 3.4.3 0, 962 15

4 Matematická statistika 4.1 Populační průměr příklad 4.1.1 Bodový a intervalový odhad populačního průměru V roce 1961 byla u 15 náhodně vybraných chlapců z populace všech desetiletých chlapců zjištěna výška: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147 cm. 1. Na základě náhodného výběru odhadněte průměrnou (očekávanou) výšku populace desetiletých chlapců. 2. Na základě náhodného výběru odhadněte směrodatnou odchylku výšky populace desetiletých chlapců. 3. Určete směrodatnou chybu odhadu (standard error). 4. Sestavte oboustranný 95% interval spolehlivosti pro průměrnou výšku. 5. Sestavte levostranný 95% interval spolehlivosti pro průměrnou výšku. příklad 4.1.2 Test hypotézy o populačním průměru V roce 1951 byl proveden výběr celé populace desetiletých chlapců a naměřena průměrná výška 136,1 cm a směrodatná odchylka výšky 6,4 cm. 1. Na 5% hladině významnosti testujte, zda se změnila průměrná výška nové generace (desetiletí chlapci v roce 1961) za předpokladu, že rozptyl výšky se nezměnil (známý rozptyl, použijete σ 2 = 6, 4 2 ). 2. Na 5% hladině významnosti testujte, zda se změnila průměrná výška nové generace za předpokladu, že rozptyl výšky ze změnil (neznámý rozptyl, musíte odhadnout z náhodného výběru). 3. Na 5% hladině významnosti testujte, zda je nová generace vyšší. příklad 4.1.3 Normální rozdělení (opakování náhodné veličiny) Víte, že výška desetiletých chlapců je normálně rozdělená náhodná veličina se střední hodnotu 140 cm a směrodatnou odchylkou 6 cm. 1. Určete kolem střední hodnoty symetrický interval, v kterém se bude s 95% pravděpodobností nacházet výška desetiletého chlapce. příklad 4.1.4 Test parametru π alternativního rozdělení 1. Agentura Q, která se zabývá výzkumem veřejného mínění, měla za úkol zjistit u obyvatel České republiky míru podpory našeho vstupu do Evropské unie. Agentura provedla šetření u náhodně vybraného vzorku 100 osob, z nichž 42 se vyslovilo pro. (a) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je právě polovina občanů ČR. 16

(b) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je méně než polovina občanů ČR. 2. Zadavatel výzkumu si objednal nové šetření o 10 krát větším rozsahu, tj. agentura Q provedla šetření u náhodnně vybraného vzorku 1000 osob. Výsledek však v relativním vyjádření dopadl stejně pro vstup do Evropské unie se vyslovilo 420 osob. (a) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je právě polovina občanů ČR. (b) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je méně než polovina občanů ČR. 4.2 Možné situace při statistickém testování hypotéz skutečnost rozhodnutí H 0 platí H 0 neplatí zamítnutí H 0 chyba prvního druhu OK α = P (t W H 0 platí) nezamítnutí H 0 OK chyba druhého druhu β = P (t V H 0 neplatí) Chyba I. druhu Chybné zamítnutí platné H 0, P (t W H 0 platí) = α. Chyba II. druhu Nezamítnutí neplatné H 0, P (t V H 0 neplatí) = β. Síla testu Správné zamítnutí neplatné H 0, P (t W H 0 neplatí) = 1 β. P-value Dosažená hladina testu, tj. nejmenší hladina významnosti α, při které bychom ještě hypotézu zamítli. Je-li P-value < α, potom zamítáme H 0. Je-li P-value > α, potom H 0 nezamítáme. Jinými slovy, P-hodnota testu hypotézy je pravděpodobnost, že můžeme získat data, která jsou aspoň stejně nebo více nekonzistentní s nulovou hypotézou než data, která jsme obdrželi. 17

5 Test dobré shody, Kontingence, Analýza rozptylu 5.1 χ 2 test dobré shody příklad 5.1.1 Při 600 hodech hrací kostkou byly zjištěny následující četnosti jednotlivých stran: 85, 99, 91, 108, 119, 98. Lze na 5% hladině považovat tuto kostku za symetrickou? 5.2 Kontingence příklad 5.2.1 Tabulka níže uvádí výsledky šetření pro prodejce alkoholických nápojů. Výrobce by rád věděl, zda jsou typy preferovaného nápoje závislé na pohlaví (zvolte vlastní hladinu významnosti a určete p-value). Pivo Víno Destiláty Koktejly Abstinenti Celkem Muži 13 10 5 7 3 38 Ženy 10 11 10 4 3 38 Celkem 23 21 15 11 6 76 příklad 5.2.2 Máme dvě proměnné: pohlaví (žena nebo muž) a vyhraněnost ruky (pravák nebo levák). Dále máme náhodný výběr 100 jedinců s následujícími výsledky: 43 mužů jsou praváci, 9 můžu jsou leváci. 44 žen jsou pravačky, 4 jsou levačky. Testujte zda pohlaví má vliv na vyhraněnost ruky (zvolte vlastní hladinu významnosti a určete p-value). příklad 5.2.3 V parlamentu se projednává zajímavý zákon a nás zajímá, zda spolu souvísí souhlas s projednávaným zákonem a postoj voličů k vládní koalici. Proto u namátkou vybraných voličů byly zjištěny následující údaje: zákon ano zákon ne koalice ano 9 5 koalice ne 4 7 5.3 Analýza rozptylu příklad 5.3.1 Vraťte se k příkladu 1.1, v sekci 1 popisná statistika. Testujte, zda měsíční výdaje na potraviny závisí na typu domácnosti. Data najdete v souboru vypocty.xls, list domacnosti. Zvolte vlastní hladinu významnosti a určete P-value. příklad 5.3.2a V souboru vypocty.xls, list vyska jsme zaznamenali údaje o výšce a pohlaví studentů tohoto kurzu. Rozhodněte, zda můžeme tvrdit, že pohlaví ovlivňuje očekávanou (průměrnou) výšku. Zvolte vlastní hladinu významnosti a určete P-value. 18

příklad 5.3.2b Dvouvýběrový t-test o rovnosti středních hodnot Pomocí párového t-testu posuďte (na stejném datovém souboru jako v předešlém příkladu), zda očekávaná výška závisí na pohlaví. Určete p-value. příklad 5.3.3 Soubor vypocty.xls, list ANOVA obsahuje 16 údajů o spotřebě benzinu (l/100km) a přislušném typu benzinu. Rozhodněte, zda typ benzinu ovlivňuje jeho spotřebu (zvolte vlastní hladinu významnosti a určete P-value). 19

6 Regrese, Časové řady 6.1 Regrese a Korelace Data najdete v souboru vypocty.xls, list regrese. příklad 6.1.1 Lineární regrese Máme údaje o stáří a ceně 10 ojetých aut Škoda. 1. Zkonstruujte a odhadněte regresní model závislosti ceny auta na jeho stáří. 2. Vytvořte řadu reziduí. Spočtěte reziduální, teoretický a celkový součet čtverců. 3. Posuďte kvalitu modelu pomocí F -testu, t-testů a koeficientu determinace. 4. Odhadněte očekávanou cenu auta, které je staré 10 let. příklad 6.1.2 Vícenásobná lineární regrese Máme údaje o stáří, počtu najetých km a ceně 20 ojetých aut Škoda. Zkonstruujte regresní model závislosti ceny auta na jeho stáří a počtu najetých km, posuďte jeho kvalitu a použijte jej k odhadu ceny auta starého 6 let, které má najeto 60 tisíc km. příklad 6.1.3 Lineární regrese Máme údaje o délce pracovní neschopnosti (ve dnech) a věku 10 zaměstnanců. Vyberte vhodný regresní model závislosti délky pracovní neschopnosti na věku. Uvažujte regresní funkci η = β 0 + β 1 /x (hyperbola) a η = β 0 + β 1 ln x (logaritmická regresní funkce). Dále odhadňete a testujte parametry kvadratické regresní funkce (parabola) η = β 0 + β 1 x + β 2 x 2. příklad 6.1.4 Korelační koeficient Na 10 vybraných místech v okolí zdroje znečištění byla měřena hmotnostní koncentrace popílku pomocí dvou různých metod. Naměřené hodnoty jsou v mg/m 3. 1. Ukažte, že výsledky měření různými metodami jsou korelované (určete a testujte korelační koeficient). 2. Dopočtěte korelační koeficient na základě regresní přímky. 6.2 Časové Řady příklad 6.2.1 Trendové křivky V tabulce jsou uvedeny hodnoty roční časové řady počtu narozených v Jihomoravském kraji za období 13 let: 20

rok t počet narozených 1990 1 14 238 1991 2 14 306 1992 3 13 474 1993 4 13 556 1994 5 11 701 1995 6 10 310 1996 7 9 789 1997 8 9 673 1998 9 9 716 1999 10 9 547 2000 11 9 567 2001 12 9 626 2002 13 10 067 Vyrovnejte časovou řadu jednak přímkou a jednak parabolou a posuďte pomocí indexu determinace vhodnosti těchto trendových funkcí. Sestrojte odhad počtu narozených pro další rok. příklad 6.2.2 Nelineární trendová křivka Firma zabývající se provozováním internetového portálu zaznamenala za posledních 8 let prudký rozvoj, který dokumentuje tabulka dosaženého zisku před zdaněním (v tis. Kč): rok 2000 2001 2002 2003 2004 2005 2006 2007 zisk 958 1002 1281 1569 1899 2222 2855 3544 Vyrovnejte hodnotu zisku vhodnou trendovou funkcí a sestrojte předpověď pro rok 2008 a 2009. (Nápověda: Jako vhodná trendová funkce je doporučena exponenciála T t = β 0 β t 1.) příklad 6.2.4 Klouzavé průměry V tabulce jsou hodnoty časové řady kurzu akcií ABC, a.s. (v Kč za 1 akcii) během 12 po sobě jdoucích pracovních dnů: den 1 2 3 4 5 6 7 8 9 10 11 12 kurz 472 469 464 471 474 471 475 491 505 502 504 510 1. Vyrovnejte tuto řadu jednoduchými klouzavými průměry délky 3, 5 a 7. 2. Vyrovnejte tuto řadu 5-člennými klouzavými průměry 2.řádu. Nápověda: 5-členný klouzavý průměr 2.řádu má váhy 1 35 ( 3, 12, 17, 12, 3). příklad 6.2.5 Model CAPM V listu akcie jsou časové řady měsíčních pozorování ceny akcie ČEZ a indexu Pražské burzy PX50. V sekci?? jsme si definovali výnosy, označte rt CEZ logaritmický výnos ČEZu v čase t, a logaritmický výnos PX50 v čase t. Určete následující: r PX t Pro logaritmický výnos akcie ČEZ: 1. Vytvořte graf logaritmického výnosu. 21

2. Odhadněte očekávaný výnos: Ê[r t ] = 1 T T r i = r. i=1 3. Odhadněte směrodatnou odchylku výnosu (volatilitu): σ r = Var[r t ] = 1 T (r i r) T 1 2. 4. Vytvořte 95% interval spolehlivosti pro očekávaný výnos. i=1 5. Testujte hypotézu, zda je očekávaný výnos roven nule. Capital Asset Pricing Model (CAPM) říká za předpokladu nulové bezrizikové úrokové míry následující: E[r i ] = β i E[r m ], kde r i je výnos akcie i, r m je výnos market portfolia a β i = Cov[ri,r m ] Var[r m ] a r m dělená rozptylem r m ). Model zapíšeme jako regresní model (kovariance mezi r i r i t = α i + β i r m t + ε t, t = 1,..., T, kde ε je náhodný šok nekorelovaný s r m (představuje nesystematické, idiosynkratické nebo také diverzifikovatelné riziko). Porovnáním obou rovnic je zřejmé, že CAPM implikuje α i = 0 (testujeme standardním t-testem). α i je také označováno jako Jensenovo α, viz http://en.wikipedia.org/wiki/jensen s alpha. 1. Graf logaritmického výnosu ČEZu doplňte o logaritmický výnos PX50. 2. Odhadněte model CAPM pro ČEZ, kdy jako market portfolio použijete index PX50. 3. Testujte, zda α je statisticky významný parametr. 4. Odhadněte korelaci mezi log výnosy ČEZu a PX50. 22

7 Indexy příklad 7.0.1 Řetězové a bazické indexy V tabulce jsou je uvedena spotřeba masa v ČR (v kg na obyvatele). Charakterizujte vývoj spotřeby masa v tomto období pomocí bazických indexů (1989 = 100) a řetězových indexů. rok 1989 1999 2000 2001 2002 2003 2004 2005 spotřeba 97,4 83,0 79,4 77,8 79,8 80,6 80,5 81,4 příklad 7.0.2 Řetězové a bazické indexy V tabulce je zachycen vývoj sklizní máku v letech 1993 2006. Za některé roky známe přímo hodnoty, někde známe řetězové a jinde bazické indexy se základem v roce 1993. Dopočítejte chybějící údaje. i x i I i/i 1 I i/b 1993. -. 1994. 239. 1995 25053.. 1996.. 140 1997. 99. 1998... 1999 28509 139. 2000. 48. 2001 21294. 309 2002. 79. 2003. 116. 2004... 2005. 147 529 2006 31591.. příklad 7.0.3 Souhrnné indexy Ceny a prodané množství pěti druhů zboží v březnu (základní období) a červnu (běžné období) roku 2006 jsou uvedeny v následující tabulce. zboží cena množství p 0 p 1 q 0 q 1 A 8 10 30 20 B 4 6 50 40 C 5 8 50 30 D 7 7 30 20 E 9 8 10 20 1. Určete pomocí souhrnných cenových indexů, jak se změnily ceny v červnu oproti březnu. 2. Určete pomocí souhrnných objemových indexům jak se změnilo množství prodaného zboží v červnu oproti březnu. 23