Kovariance, 76. Kritická hodnota. souboru, 65 Kritický obor, 121 Kvantil. souboru, 64 Kvartil. souboru, 68. Median

Transkript

1 Index χ 2 -test, 133 dobré shody, 134 nezávislosti, 135 Úplná pravděpodobnost, 50 Alternativní hypotéza, 118 ANOVA, 157 nevysvětlený rozptyl, 159 příklad, 160 vysvětlený rozptyl, 158 ANOVA 2, 161 příklad, 162 Bayesův vzorec, 51 Binomická pravděpodobnost, 48 Bodový odhad, 98 konzistence, 102 nestrannost, 100 vydatnost, 103 Centrální limitní věta, 82 Charakteristiky souborové, 93 výběrové, 94 Chyba I a II druhu, 120 Data, 14 Datový soubor, 15 Distribuční funkce, 56 náhodného vektoru, 71 Empirická distribuční funkce, 34 Hladina významnosti, 119 Hp, 57 hustota pravděpodobnosti, 58 marginální, 73 náhodného vektoru, 72 podmíněná, 74 Intervalový odhad, 99 Jevová algebra, 41 Jevové pole, 40 Korelační koeficient datových souborů, 26 Kovarianční matice, 78 Kovariance, 76 datových souborů, 25 Kritická hodnota datového souboru, 33 souboru, 65 Kritický obor, 121 Kvantil datového souboru, 31 souboru, 64 Kvartil datového souboru, 32 souboru, 68 Median datového souboru, 21 souboru, 63 Metoda maximální věrohodnosti, 106 Metoda momentů, 105 Mezikvartilové rozpětí, 30 Modus datového souboru, 22 souboru, 62 Moment centrální, souboru, 67 centrální, výběrový, 92 obecný, souboru, 66 obecný, výběrový, 91 MSE, 104 Náhodná veličina, 52 diskrétní, 53 spojitá, 54 Náhodný jev, 39 Náhodný pokus, 35 diskrétní, 36 spojitý, 37 Náhodný výběr, 85 Náhodný vektor, 70 Nekorelovanost, 77 Nezávislost, 47 Nulová hypotéza, 117 Odhad dvou podílů, 115 Odhad dvou středních hodnot nesdružený, 113 párový, 114 1

2 sdružený, 112 Odhad podílu, 111 Odhad rozptylu, 110 Odhad střední hodnoty neznámý rozptyl, 109 známý rozptyl, 108 Operátorový počet s E a D, 69 p-hodnota, 123 Parametr rozdělení, 84 PCA singulární čísla, 164 vlastní čísla, 165 Pořadí dat, 17 Průměr, 18 Průměr čtverců, 19 Pravděpodobnost, 42 klasická, 43 složených jevů, 46 statistická, 44 Pravděpodobnostní strom, 49 Predikce exponenciální, 154 lineární, 144 polynomiální, 156 Proces, 13 Regrese exponenciální, 153 F-test, 149 interval pro regresní přímku, 146 nevysvětlený rozptyl, 151 polynomiální, 155 predikční interval, 145 t-test korelačního koeficientu, 148 t-test směrnice regresní přímky, 147 vícenásobná, 152 vysvětlený rozptyl, 150 Regresní přímka, 142 koeficienty, 143 Rozdělení χ 2, 9 F (Fisherovo), 10 t (Studentovo), 8 beta, 12 binomické, 1 exponenciální, 5 gama, 11 geometrické, 3 log-normální, 7 normální, 6 poissonovo, 2 rovnoměrné, 4 Rozdělení náhodné veličiny, 55 Rozptyl datového souboru, 23 souboru, 60 Složené jevy, 45 Směrodatná odchylka datového souboru, 24 souboru, 61 Směrování testu, 122 Součet čtverců, 20 centrální, 28 vzájemný, centrální, 29 Soubor, 83 Střední hodnota náhodného vektoru, 75 souboru, 59 Statistika, 95 odhadová, 96 testová, 97 Test dvou podílů, 132 Test dvou rozptylů, 131 Test dvou středních hodnot nesdružený, 129 párový, 130 sdružený, 128 Test nezávislosti prvků výběru, 137 Test nezávislosti souborů, Kendal, 140 Test nezávislosti souborů, Pearson, 138 Test nezávislosti souborů, Spearman, 139 Test parametru rozdělení, 116 Test podílu, 127 Test rozdělení, Kolmogorov-Smirnov, 141 Test rozptylu, 126 Test střední hodnoty neznámý rozptyl, 125 známý rozptyl, 124 Transformace náhodné veličiny, 79 náhodného vektoru, 80 Uspořádaný datový soubor, 16 2

3 Výběrový podíl, 90 Výběrový průměr, 86 rozptyl, 88 střední hodnota, 87 Výběrový rozptyl, 89 Variační rozpětí, 27 Vychýlení bodového odhadu, 101 Základní prostor, 38 Zákon velkých čísel, 81 Značení pro odhady a testy, 107 Znaménkový test mediánu, 136 3

4 Rozdělení! binomické [ binomial ] Bi (x, n, p) - určuje pravděpodobnost k úspěchů při n pokusech, které mají pouze dva možné výsledky (úspěch a neúspěch). x počet úspěchů x {0, 1, 2,, n} n počet pokusů n N p pravděpodobnost úspěchu v jednom pokusu p (0, 1) P ř í k l a d: Pravděpodobnost výběru tří dobrých výrobku z velké série, kde je 5% vadných, při náhodné kontrole deseti výrobku. Hustota pravděpodobnosti f (x) = ( ) n p x (1 p) n x x Funkce binomial pdf(x,n,p) - hustota pravděpodobnosti v hodnotě x binomial cdf(x,n,p) - distribuční funkce v hodnotě x binomial inv(α,n,p) - kvantil pro pravděpodobnost α binomial rnd(n,p,nr,ns) - generátor náhodné matice rozměru nr, ns 4

5 Rozdělení! poissonovo [ poisson ] P o (x, λ) - je limitním případem binomického rozdělení, pro n a p 0 x počet úspěchů x {0, 1, 2, } λ intenzita n p = λ R + P ř í k l a d: Popisuje pohyb vozidel po vozovce pri malé intenzitě provozu. Používá se např. při návrhu kapacitního uspořádání zatáček na vorovce tak, aby přijíždějící vozidla měla volný průjezd. Hustota pravděpodobnosti Funkce λ λx f (x) = e x! poisson pdf(x,λ) - hustota pravděpodobnosti v hodnotě x poisson cdf(x,λ) - distribuční funkce v hodnotě x poisson inv(α,λ) - kvantil pro pravděpodobnost α poisson rnd(λ,nr,ns) - generátor náhodné matice rozměru nr, ns 5

6 Rozdělení! geometrické [ geometric ] Ge (x, p) - sleduje počet neúspěšných pokusů, které předcházejí první úspěch. Pravděpodobnost úspěchu je p a je při každém pokuse stejná x počet neůspěchů před prvním úspěchem x {0, 1, 2, } p pravděpodobnost úspěchu v jednom pokusu p (0, 1) P ř í k l a d: Pří jízdě autem v městě sledujeme počet volných průjezdů přes semafor něž budeme poprvé v křižovatce zastaveni. Troch paradoxně zde za úspěch považujeme zastavení semaforem. Hustota pravděpodobnosti f (x) = p (1 p) x Funkce geometric pdf(x,p) - hustota pravděpodobnosti v hodnotě x geometric cdf(x,p) - distribuční funkce v hodnotě x geometric inv(α,p) - kvantil pro pravděpodobnost α geometric rnd(p,nr,ns) - generátor náhodné matice rozměru nr, ns 6

7 Rozdělení! rovnoměrné [ d.uniform ] Ro (x, a, b) - toto rozdělení má dvě zásadní charakteristiky uvnitř intervalu (a, b) nemáme žádné preference, mimo interval (a, b) je naprostý zákaz hodnot. x hodnoty rozdělení x (a, b) a nejmenší hodnota a R b největší hodnota b R, b > a P ř í k l a d: Doba čekání na autobus, který má přesně pěti minutové intervaly, jestliže na stanici jsme přišli v náhodný okamžik. Pak a = 0 a b = 5. Hustota pravděpodobnosti f (x) = 1 b a pro x (a, b), jinde 0. Funkce uniform pdf(x,a,b) - hustota pravděpodobnosti v hodnotě x uniform cdf(x,a,b) - distribuční funkce v hodnotě x uniform inv(α,a,b) - kvantil pro pravděpodobnost α uniform rnd(a,b,nr,ns) - generátor náhodné matice rozměru nr, ns 7

8 Rozdělení! exponenciální [ exponential ] Exp (x, δ) - bezporuchová doba fungování přístroje. x hodnoty rozdělení x 0 δ střední životnost δ > 0 P ř í k l a d: Délka fungování náhodně zakoupeného přístroje, u něhož pravděpodobnost poruchy je v čase stále stejná (tj. zanedbává opotřebení, zdrojem poruchy je nějaká vnější příčina, která působí stále stejně.) Hustota pravděpodobnosti f (x) = ( ) n p x (1 p) n x x Funkce binomial pdf(x,n,p) - hustota pravděpodobnosti v hodnotě x binomial cdf(x,n,p) - distribuční funkce v hodnotě x binomial inv(α,n,p) - kvantil pro pravděpodobnost α binomial rnd(n,p,nr,ns) - generátor náhodné matice rozměru nr, ns 8

9 Rozdělení! normální [ normal ] N ( x, µ, σ 2) - vzniká tam, kde se na výsledné náhodě podílí velké množství vzájemně nezávislých částečných neurčitostí. x hodnoty rozdělení x R µ střední hodnota µ R σ 2 rozptyl σ 2 0 P ř í k l a d: Opakovaná měření délky; intenzita a hustota dopravního toku při velkém provozu; sypání písku na hromadu a celá řada dalších. Hustota pravděpodobnosti f (x) = 1 1 2πσ 2 e 2( x µ σ ) 2 Funkce normal pdf(x,µ,σ 2 ) - hustota pravděpodobnosti v hodnotě x normal cdf(x,µ,σ 2 ) - distribuční funkce v hodnotě x normal inv(α,µ,σ 2 ) - kvantil pro pravděpodobnost α normal rnd(µ,σ 2,nr,ns) - generátor náhodné matice rozměru nr, ns 9

10 Rozdělení! log-normální [ lognormal ] LN ( x, µ, σ 2) - pro velká µ se podobá normálnímu rozdělení, pro malá µ je asymetrické (omezené jen na kladné hodnoty). x hodnoty rozdělení x R µ střední hodnota µ R σ 2 rozptyl σ 2 0 P ř í k l a d: Rozdělení charakteristik dopravního proudu při velkém provozu (většina z nich má prakticky normální rozdělení, ale omezené jen na kladné hodnoty). Hustota pravděpodobnosti Funkce f (x) = 1 x 1 2πσ 2 e 2( ln(x) µ σ ) 2 lognormal pdf(x,µ,σ 2 ) - hustota pravděpodobnosti v hodnotě x lognormal cdf(x,µ,σ 2 ) - distribuční funkce v hodnotě x lognormal inv(α,µ,σ 2 ) - kvantil pro pravděpodobnost α lognormal rnd(µ,σ 2,nr,ns) - generátor náhodné matice rozměru nr, ns 10

11 Rozdělení! t (Studentovo) [ student ] t (x, n) - umělé rozdělení pro odhady a testy hypotéz x hodnoty rozdělení x R n počet stupňů volnosti n N P ř í k l a d: Popisuje statistiku pro odhad střední hodnoty při neznámém rozptylu a dále většinu statistik v lineární regresi. Generátor Funkce N (x; 0, 1) t (x; n) = χ 2 (n) n t pdf(x,n) - hustota pravděpodobnosti v hodnotě x t cdf(x,n) - distribuční funkce v hodnotě x t inv(α,n) - kvantil pro pravděpodobnost α t rnd(n,nr,ns) - generátor náhodné matice rozměru nr, ns 11

12 Rozdělení! χ 2 [ chi2 ] χ 2 (x, n) - umělé rozdělení pro odhady a testy hypotéz x hodnoty rozdělení x 0 n počet pokusů n N P ř í k l a d: Popisuje statistiku pro odhad rozptylu a dále statistiky χ 2 -testů. Generátor n χ 2 (x; n) = (N i (x; 0, 1)) 2 i=1 Funkce chisquare pdf(x,n) - hustota pravděpodobnosti v hodnotě x chisquare cdf(x,n) - distribuční funkce v hodnotě x chisquare inv(α,n) - kvantil pro pravděpodobnost α chisquare rnd(n,nr,ns) - generátor náhodné matice rozměru nr, ns 12

13 Rozdělení! F (Fisherovo) [ fisher ] F (x, n 1, n 2 ) - umělé rozdělení pro odhady a testy hypotéz x hodnoty rozdělení x 0 n 1 počet stupňů volnosti v čitateli n 1 N n 2 počet stupňů volnosti ve jmenovateli n 2 N P ř í k l a d: Popisuje statistiky při analýze rozptylu (ANOVA). Generátor F (x; n 1, n 2 ) = χ 2 1 (x;n1) n 1 χ 2 2 (x;n2) n 2 Funkce F pdf(x,n,p) - hustota pravděpodobnosti v hodnotě x F cdf(x,n,p) - distribuční funkce v hodnotě x F inv(α,n,p) - kvantil pro pravděpodobnost α F rnd(n,p,nr,ns) - generátor náhodné matice rozměru nr, ns 13

14 Rozdělení! gama [ gamma ] Γ (x, z) - pomocné rozdělení x hodnoty rozdělení x 0 z parametr z > 0 Hustota pravděpodobnosti f (x; z) e x x z 1 Funkce gamma pdf(x,z) - hustota pravděpodobnosti v hodnotě x gamma cdf(x,z) - distribuční funkce v hodnotě x gamma inv(α,z) - kvantil pro pravděpodobnost α gamma rnd(z,nr,ns) - generátor náhodné matice rozměru nr, ns 14

15 Rozdělení! beta [ ] Bi (x; a, b) - pomocné rozdělení x hodnoty rozdělení x (0, 1) a, b parametry a, b (0, 1) Hustota pravděpodobnosti f (x) x a 1 (1 x) b 1 Funkce beta pdf(x,a,b) - hustota pravděpodobnosti v hodnotě x beta cdf(x,a,b) - distribuční funkce v hodnotě x beta inv(α,a,b) - kvantil pro pravděpodobnost α beta rnd(a,b,nr,ns) - generátor náhodné matice rozměru nr, ns 15

16 Proces [ proces ] Proces je část reality, kterou sledujeme, abychom ji poznali, případně mohli předpovídat nebo ovlivňovat. P ř í k l a d: Křižovatka v městské dopravní oblasti. Měříme intenzity a obsazenosti na detektorech, případné ovlivňování lze provádět pomocí světelné signalizace. 16

17 Data [ data ] Data jsou hodnoty, které měříme na sledovaném procesu. Mohou to být skalární data - jednotlivé měřené hodnoty, nebo vektorová data - měříme-li vždy několik hodnot najednou. Měřená data považujeme za realizace náhodné veličiny, kterou je sledovaný proces popsán. Data mohou být: 1. Prostá - vektor hodnot tak, jak jsme je naměřili. 2. Tříděná - bud podle hodnot nabo podle intervalů. (a) třídění podle hodnot - jsou dána taulkou, kde v prvním řídku jsou různé hodnoty datového souboru a v druhém řádku jejich četnosti. Např. hodnoty X i četnosti n i (b) třídění podle intervalů - je podobné jako řídění podle dat s tím, že každý interval je reprezentovám nějakým číslem (většinou hodnotou jeho středu). 17

18 Datový soubor [ dat.soub ] Datový soubor je množina dat, změřená na sledovaném procesu. Pokud měříme jen jednu veličinu, má datový soubor tvar vektoru. Pokud měříme datový vektor, je datový soubor matice. Data do matice většinou ukládáme po sloupcích - co sloupec to vektor naměřených dat. 18

19 Uspořádaný datový soubor [ usp.dat.s ] Uspořádaný datový soubor je takový datový soubor, kde jsou data seřazena od nejmenšího po největší. P ř í k l a d: Změřili jsme datový soubor x = {5, 2, 8, 2, 4} Uspořádaný datový soubor je x usp = {2, 2, 4, 5, 8} 19

20 Pořadí dat [ poradi ] V pořadí dat nevystupují data samá, ale jejich pořadí v uspořádaném datovém souboru. Pořadí datového souboru x budeme značit q x. P ř í k l a d: Získali jsme datový soubor x = {5, 2, 8, 2, 4}. Pořadí příslušné tomuto vektoru je q x = {4, 1, 5, 2, 3}, protože uspořádaný datový soubor je x usp = {2, 2, 4, 5, 8}. 20

21 Průměr [ prumer ] Aritmetický průměr je dán součtem hodnot datového souboru, děleným počtem změřených dat. Aritmetický průměr lze počítat dvěma způsoby 1. Prostý aritmetický průměr z netříděných dat kde x i jsou prostá data. x = 1 n n x i, i=1 2. Vážený aritmetický průměr z tříděných dat x = 1 N i=1 n i N X i n i, kde X i jsou různé hodnoty datového souboru, n i jsou jejich četnosti a N je počet různých hodnot datového souboru.. i=1 P o z n á m k a: Vážený aritmetický průměr lze také vyjádřit takto kde p i = ni N i=1 ni x = N X i p i i=1 jsou pravděpodobnosti jednotlivých různých hodnot x i datového souboru. 21

22 Průměr čtverců [ prum.ctv ] Je to průměr z kvadrátů hodnot datového souboru x 2 = 1 n nebo s použitím váženého průměru n x 2 i, i=1 N x 2 i=1 = X2 i n i N i=1 n i 22

23 Součet čtverců [ souc.ctv ] Je to součet kvadrátů hodnot datového souboru n Σx 2 = x 2 i, i=1 nebo s použitím váženého součtu viz vážený průměr. N Σx 2 = Xi 2 n i i=1 23

24 Median! datového souboru [ median ] Je to prostřední hodnota uspořádaného souboru. P ř í k l a d: Je dán soubor x = [5, 3, 8, 4, 1]. Uspořádaný soubor xusp = [1, 3, 4, 5, 8]. Medián (prostřední hodnota) je 4. V případě sudého počtu dat se jako medián bere průměr ze dvou prostřed- P o z n á m k a: ních hodnot. 24

25 Modus! datového souboru [ modus ] Je to hodnota datového souboru, která má maximální četnost výskytu. P ř í k l a d: Je dán tříděný soubor X i n i pak medián je 5 (protože se vyskytuje v maximálním počtu - 12x) P o z n á m k a: Jestliže hodnot s maximálním výskytem je více, mluvíme o multimodálním datovém souboru a za modus považujeme množinu všech takových. 25

26 Rozptyl! datového souboru [ rozptyl ] Rozptylem datového souboru se většinou myslí výběrový rozptyl, definovaný vzorcem kde x je výběrový průměr s 2 x = 1 n 1 n (x i x), i=1 Výběrový průměr se od druhého centrálního momentu liší jen -1 ve jmen- P o z n á m k a: ovateli. 26

27 Směrodatná odchylka! datového souboru [ sm.odch ] Je to odmocnina z rozptylu s x = s 2 x 27

28 Kovariance! datových souborů [ kovariance ] Kovariance je definována vzorcem c x,y = 1 n 1 n (x i x) (y i y). i=1 Kovariance vyjadřuje vazbu mezi datovými soubory x a y. Čím je její hodnota větší (at už kladná nebi záporná) je vazba silnější. Je-li kovariance nula, datové soubory spolu nesouvisí - jsou nekorelované. 28

29 Korelační koeficient! datových souborů [ kor.koef ] Korelační koeficient je normovaná kovariance r = c x,y s x s y Korelační koeficient nabývá hodnot z intervalu ( 1, 1). Hodnota r = 0 vyjadřuje nekorelovanost. 29

30 Variační rozpětí [ var.rozp ] Je rozdíl mezi největší a nejmenší hodnotou datového souboru R = max (x) min (x) 30

31 Součet čtverců! centrální [ souc.ctv.c ] Součet čtverců (centrální) je definován vztahem n S x = (x i x) 2 i=1 31

32 Součet čtverců! vzájemný, centrální [ vz.souc.ctv.c ] Vzájemný součet čtverců (centrální) je definován vztahem n S xx = (x i x)(y i ȳ) i=1 32

33 Mezikvartilové rozpětí [ mezikv.rozp ] Je rozdíl mezi horním a dolním kvartilem iqr = ζ 0.75 ζ

34 Kvantil! datového souboru [ kvantil ] α-kvantil ζ α je taková hodnota datového souboru, pro kterou platí, že když soubor uspořádáme vzestupně podle velikosti, pak vlevo od této hodnoty leží (přibližně) α 100% hodnot menších. P ř í k l a d: Je dán datový soubor x = [5, 8, 4, 1, 9]. Uspořádaný soubor je x usp = [1, 4, 5, 8, 9]. Kvantil 0.38 je hodnota, která je na pozici uspořádaného souboru, která odpovídá fiktivnímu pořadí = 1.9; nejbližší celé číslo (pořadí) je tedy 2 a kvantil 0.38 je 4 (druhá hodnota uspořádaného souboru). 34

35 Kvartil! datového souboru [ kvartil ] Kvartily jsou speciální případy kvantilů pro α = 0, 0.25, 0.5, 0.75, 1. kvantil 0 ζ 0 minimum kvantil 0.25 ζ 0.25 dolní kvartil kvantil 0.5 ζ 0.5 prostřední kvartil (medián) kvantil 0.75 ζ 0.75 horní kvartil kvantil 1 ζ 1 maximum 35

36 Kritická hodnota! datového souboru [ krit.hod ] Pro kritickou hodnotu platí totéž co pro kvantil s tím rozdílem, že od kritické hodnoty leží α 100% hodnot datového souboru vpravo, a tedy větších než kritická hodnota. 36

37 Empirická distribuční funkce [ emp.d.f ] Empirickou distribuční funkci z náhodného výběru o rozsahu n označíme F n (x) získáme tak, že výběr uspořádáme, a empirickou distribuční funkci konstruujeme jako schodovou funkce s konstantní výškou schodů, které jsou umístěny v poloze jednotlivých dat. P ř í k l a d: Pro uspořádaný datový soubor x usp = [3, 5, 8] bude empirická distribuční funkce 0, pro x (, 3) 1/3, pro x (3, 5) F n (x) = 2/3, pro x (5, 8) 1, pro x (8, ) 37

38 Náhodný pokus [ nah.pok ] Je určitý experiment, který i za relativně stálých podmínek, dává různé výsledky. Podle množství výsledků dělíme náhodné pokusy na diskrétní a spojité. 38

39 Náhodný pokus! diskrétní [ nah.pok.dis ] Je náhodný pokus, který má konečný nebo spočetný počet výsledků. P ř í k l a d: Mezi diskrétní pokusy patří např. hod mincí (dva výsledky), hod kostkou (6 výsledků), tažení korálku (počet výsledků je dán počtem různých barev), ale také počet aut v koloně, který může být reprezentován libovolným nezáporným, celým číslem - je to nekonečně, ale spočetně mnoho výsledků) 39

40 Náhodný pokus! spojitý [ nah.pok.spo ] Je náhodný pokus, který má nespočetný počet výsledků. P ř í k l a d: Mezi spojité pokusy patří např. doba čekání na tramvaj, bezporuchová doba funkce přístroje nebo opakované měření určitého rozměru, prováděné s chybami. 40

41 Základní prostor [ zak.prost ] Základní prostor Ω tvoří všechny možné bezprostřední výsledky náhodného pokusu. P ř í k l a d: Pro pokus hod mincí je Ω = {rub, ĺıc}, pro hod kostkou je Ω = {1, 2, 3, 4, 5, 6}. 41

42 Náhodný jev [ nah.jev ] Náhodný jev je libovolná podmnožina základního prostoru, tj. určitá množina výsledků náhodného pokusu. P ř í k l a d: Jev padne sudé číslo je zadán množinou {2, 4, 6} (což je podmnožina prostoru {1, 2, 3, 4, 5, 6}. 42

43 Jevové pole [ jev.pole ] Jevové pole A je množina všech jevů náhodného pokusu. Je to tedy množina všech podmnožin základního prostoru P ř í k l a d: Pro hod mincí s výsledky R a L je jevové pole A = {, {R}, {L}, {R, L}} P o z n á m k a: Jevové pole nemusí být nutně množina všech podmnožin základního prostoru. Stačí, jestliže tvoří tzv. algebru jevů. To je množina podmnožin základního prostoru, která je uzavřena na doplňky a sjednocení. 43

44 Jevová algebra [ jev.alg ] Jevová algebra je neprázdná množina podmnožin základního prostoru, pro kterou platí: s každou podmnožinou obsahuje i její doplněk do základního prostoru, s každými dvěma množinami obsahuje i jejich sjednocení. P ř í k l a d: Mějme základní prostor Ω = {a, b, c}. Pak A = {, {a}, {b, c}, {a, b, c}} je algebra jevů (tzv. algebra generovaná prvkem a). 44

45 Pravděpodobnost [ prp ] Pravděpodobnost je reálná funkce, definovaná na jevovém poli, pro kterou platí P (J) 0, J A - tj. je nezáporná, P (Ω) = 1 - tj. je normovaná J 1, J 2 neslučitelné P (J 1 J 2 ) = P (J 1 ) + P (J 2 ) - tj. je aditivní. P o z n á m k a: Poslední vlastnost má platit pro všechny konečné nebo i spočetné systémy jevů. V případě spočetného systému jevů mluvíme o σ-aditivitě. P ř í k l a d: Definujeme-li pravděpodobnosti při hodu mincí běžným způsobem, tj. P (R) = P (L) = 0.5, pak jsme splnili všechny požadavky na pravděpodobnost. Obě hodnoty jsou nezáporné. P (Ω) = P (padne cokoliv) = 1 a P ({R} {L}) = P ({R}) + P {L} = 1. 45

46 Pravděpodobnost! klasická [ prp.klas ] Klasická pravděpodobnost se opírá o teoretickou analýzu náhodného pokusu a pravděpodobnost určuje jako podíl příznivých možností ku počtu všech možností. Platí pro ni vzorec P = m n, kde m je počet možností, při kterých nastane sledovaný jev a n je počet všech možností, které nabízí náhodný pokus. P ř í k l a d: Pravděpodobnost sudého čísla při hodu kostkou je P = 3 6 =

47 Pravděpodobnost! statistická [ prp.stat ] Statistická pravděpodobnost se opírá o experimenty a pravděpodobnost určuje jako podíl počtu experimentů s příznivým výsledkem ku počtu všech provedených pokusů. Platí pro ni vzorec P = N + N, kde N + je počet příznivých experimentů a N je počet všech provedených experimentů. P ř í k l a d: Pravděpodobnost sudého čísla při hodu kostkou : Provedli jsme 1000 pokusů a z toho 521 krát padl ĺıc. Potom statistická pravděpodobnost padnutí ĺıce je P = = P o z n á m k a: Pro velký počet pokusů se statistická pravděpodobnost blíží klasické pravděpodobnosti (viz zákon velkých čísel) 47

48 Složené jevy [ slo.jev ] Jev opačný Je to doplněk jevu do základního prostoru J = Ω J Průnik dvou jevů J 1 J 2 je jev, obsahující výsledky náhodného pokusu, které jsou společné oběma jevům. Sjednocení dvou jevů J 1 J 2 je jev, obsahující výsledky náhodného pokusu, které jsou obsaženy alespoň v jednom z jevů. 48

49 Pravděpodobnost! složených jevů [ p.slo.jev ] Jevy chápeme jako množiny a lze na ně aplikovat množinové operace: doplněk (jev opačný), průnik a sjednocení. Pro jejich pravděpodobnosti platí Pravděpodobnost opačného jevu kde J je jev opačný k jevu J. P (J ) = 1 P (J), Pravděpodobnost průniku jevů P (J 1, J 2 ) = P (J 1 J 2 ) je pravděpodobnost výsledků, které jsou společné oběma jevům J 1 a J 2. Pro neslučitelné jevy platí P (J 1, J 2 ) = 0. Pro nezávislé jevy platí P (J 1, J 2 ) = P (J 1 ) P (J 2 ). Pravděpodobnost sjednocení jevů P (J 1 J 2 ) = P (J 1 ) + P (J 2 ) P (J 1, J 2 ) Pro neslučitelné jevy platí P (J 1 J 2 ) = P (J 1 ) + P (J 2 ). Pro nezávislé jevy platí P (J 1 J 2 ) = P (J 1 ) + P (J 2 ) P (J 1 ) P (J 2 ). 49

50 Nezávislost [ nezav ] Jevy J 1 a J 2 jsou nezávislé, jestliže platí P (J 1 J 2 ) = P (J 1 ). Odtud plyne kriterium nezávislosti P (J 1, J 2 ) = P (J 1 ) P (J 2 ) P o z n á m k a: Ačkoliv z definice nezávislosti by se mohlo zdát, že nezávislost je vlastnost asymetrická, její symetrie je patrna z kriteria nezávislosti. Jestliže je tedy J 1 nezávislý na J 2, je také J 2 nezávislý na J 1. 50

51 Binomická pravděpodobnost [ bin.prp ] Binomická pravděpodobnost popisuje seriál nezávislých pokusů s alternativním rozdělením (dva výsledky: úspěch, neúspěch) s výsledkem: počet úspěchů v n pokusech. Tato pravděpodobnost se řídí vzorcem ( ) n P (x; n, p) = p x (1 p) n x, x = 0, 1,, n, x kde x n p je počet úspěchů v provedených pousech je počet provedených pokusů je pravděpodobnost úspěchu v jednom pokuse P ř í k l a d: Jaká ke pravděpodobnost, že v rodině s pěti dětmi budou dva kluci, jestliže pravděpodobnost narození chlapce je 0.52? ( ) 5 P (2; 5, 0.52) = (1 0.52) 5 2 =

52 Pravděpodobnostní strom [ prp.strom ] Pravděpodobnostní strom je vhodný nástroj pro řešení úloh o opakovaných závislých experimentech. Konstrukci stromu ukážeme na příkladě. P ř í k l a d: V krabici je 5 bílých korálků a tři modré. Postupně, bez vracení, vybereme dva korálky. Jaká je pravděpodobnost, že budou mít různou barvu. Řešení je v následující tabulce (která se postupně rozvíjí d podoby stromu). Kolonka stav označuje počet bílých a modrých před nebo po pokusu. Mezi stavy je kolonka pravděpodobnosti toho, že přejdeme j jednoho konkrétního stavu do druhého (posun nahoru znamená tažení bílého a posun dolu modrého korálku). Kolonka vybráno ukazuje, jaké barvy byly taženy a kolonka pravděp. udává pravděpodobnost tohoto tahu (je to součin pravděpodobností po cestě od začátku až do příslušného konce). Na závěr vybereme všechny konce, které odpovídají našim požadavkům a jejich pravděpodobnosti sečteme. stav 0 pokus 1 stav 1 pokus 2 stav 2 vybráno pravděp. P (0 1) P (1 2) P = 4 7 3b3m b,b 4b3m P (b, b) = 5 8 P = 5 8 P = 3 7 4b2m b,m P (b, m) = 5 8 5b3m P = 3 8 P = 5 7 5b1m m,b P (m, b) = b2m P = 2 7 4b2m m,m P (b, b) = Různé barvy jsou v řádku 2 a 3, a tedy P = =

53 Úplná pravděpodobnost [ up.prp ] Je dán jev J a jevy K 1, K 2, K n které tvoří úplný rozklad základního prostoru, tj jsou neslučitelné a jejich sjednocení je celý prostor Ω. Potom P (J) = P (J K 1 ) P (K 1 ) + P (J K 2 ) P (K 2 ) + + P (J K n ) P (K n ) P ř í k l a d: Na skladě je 350 výrobků od prvého výrobce, s poruchovostí 12,5%; 200 výrobků od druhého výrobce, který ma poruchovost 5,4% a 450 výrobků od třetího výrobce, který má poruchovost jen 2,7%. Náhodně vybereme jeden výrobek. Jaká je pravděpodobnost, že bude mít poruchu? P (K 1 ) = = 0.35; P (K 2) = 0.2; P (K 3 ) = 0.45 P (J K 1 ) = 0.125; P (J K 2 ) = 0.054; P (J K 3 ) = 0.027; P (J) = =

54 Bayesův vzorec [ bayes ] P ř í k l a d: Je dán jev J a jevy K 1, K 2, K n které tvoří úplný rozklad základního prostoru, tj jsou neslučitelné a jejich sjednocení je celý prostor Ω. Potom P (K i J) = P (J K i ) P (J K 1 ) P (K 1 ) + P (J K 2 ) P (K 2 ) + + P (J K n ) P (K n ) P ř í k l a d: Na skladě je 350 výrobků od prvého výrobce, s poruchovostí 12,5%; 200 výrobků od druhého výrobce, který ma poruchovost 5,4% a 450 výrobků od třetího výrobce, který má poruchovost jen 2,7%. Náhodně vybereme jeden výrobek a ten má poruchu. Jaká je pravděpodobnost, že je to výrobek od prvního výrobce? P (K 1 ) = = 0.35; P (K 2) = 0.2; P (K 3 ) = 0.45 P (J K 1 ) = 0.125; P (J K 2 ) = 0.054; P (J K 3 ) = 0.027; P (K 1 J) = = =

55 Náhodná veličina [ nah.vel ] Náhodná veličina je zobrazení ze základního prostoru do množiny reálných čísel, které výsledkům náhodného pokusu přiřazuje reálná čísla. P ř í k l a d: Pro hod mincí jsou přirozené výsledky rub (R) a ĺıc (L). Náhodnou veličinu lze přiřadit např. takto rub 0 líc 1 P o z n á m k a: Zatímco v původním označení (R, L) nelze počítat průměr, pro náhodnou veličinu je to možné. 55

56 Náhodná veličina! diskrétní [ nah.vel.dis ] Diskrétní náhodná veličina má konečný nebo spočetný počet různých realizací. Je popisem pro diskrétní náhodný pokus. P ř í k l a d: Přiřadíme-li výsledkům náhodného pokusu hod mincí 0 a jedničku, získáme diskrétní náhodnou veličinu. 56

57 Náhodná veličina! spojitá [ nah.vel.spo ] Spojitá náhodná veličina má realizace z oboru reálných čísel, tedy nespočetně mnoho. Popisuje spojitý náhodný pokus. P ř í k l a d: Doba čekání na na zastávce autobusu s pevným intervalem po náhodném příchodu je spojitou náhodnou veličinou. 57

58 Rozdělení náhodné veličiny [ rozdel ] Rozdělení náhodné veličiny je úplným popisem náhodné veličiny. Vymezuje obor hodnot (tj. množinu všech realizací) náhodné veličiny a rozložení pravděpodobností na této množině. Rozdělení je konkrétně zadáno distribuční funkcí nebo hustotou pravděpodobnosti. 58

59 Distribuční funkce [ dist.fce ] Distribuční funkce F X (x) je úplným pravděpodobnostním popisem náhodné veličiny X. Je definována vztahem F X (x) = P (X x), kde x je reálná proměnná. 59

60 Hp [ hp ] Hp je zkratka pro hustotu pravděpodobnosti 60

61 Hp! hustota pravděpodobnosti [ hus.prp ] Hustota pravděpodobnosti (hp) f X (x) je úplným popisem náhodné veličiny X. Je definována zvlášt pro diskrétní a spojitou náhodnou veličinu. Hp diskrétní náhodné veličiny Je definována vztahem f X (x) = P (X = x) nebo F X (x) = x i x f X (x i ) P ř í k l a d: Pro pokus hod mincí definujeme náhodnou veličinu takto: rub 0, ĺıc 1. Hustota pravděpodobnosti této náhodné veličiny je x 0 1 f x (x) Hp spojité náhodné veličiny Je definována takto f X (x) = df X (x) dx nebo F X (x) = x f X (t) dt P ř í k l a d: Distribuční funkce exponenciálního rozdělení je F X (x) = 1 e x δ. Odpovídající hustota pravděpodobnosti je f X (x) = df X dx = 1 δ e x δ. 61

62 Střední hodnota! souboru [ stred.hod.s ] Střední hodnota E [X] diskrétní náhodné veličiny X je definována vztahem n E [X] = x i f (x i ). i=1 Definice střední hodnoty spojité náhodné veličiny je E [X] = xf (x) dx. P ř í k l a d: Pro diskrétní náhodnou veličinu s hustotou pravděpodobnosti x i f (x i ) je střední hodnota E [X] = = 3.8 P ř í k l a d: Pro spojitou náhodnou veličinu s rovnoměrným rozdělením na intervalu ( 1, 1) je střední hodnota E [X] = 1 1 xf (x) dx = 1 1 x 0.5dx = [ 1 4 x2] 1 =

63 Rozptyl! souboru [ rozptyl.s ] Rozptyl náhodné veličiny X je druhý centrální moment D [X] = (x E [X]) 2 f (x) dx P ř í k l a d: Rozptyl náhodné veličiny s rovnoměrným rozdělením na intervalu ( 1, 1) je D [X] = 1 1 (x 0) 2 0.5dx = 2 3 P o z n á m k a: Rozptyl je také možno počítat podle vzorce D [X] = E [ X 2] (E [X]) 2. 63

64 Směrodatná odchylka! souboru [ sm.odch.s ] Směrodatná odchylka je odmocnina z rozptylu σ = D [X] = (x E [X]) f (x) dx 64

65 Modus! souboru [ modus.s ] Modus ˆx je nejčetnější realizace náhodné veličiny X definovaná vztahem f (ˆx) f (x), x X P ř í k l a d: Náhodná veličina s hustotou pravděpodobnosti f (x) = 1 x 1, pro x (0, 2) má modus ˆx = 1, protože f (1) = 1 f (x), x (0, 2). P o z n á m k a: Je-li maxim hustoty pravděpodobnosti více, hovoříme o multimodálním rozdělení a za mody považujeme argumenty všech maxim. 65

66 Median! souboru [ median.s ] Median x je prostřední realizace náhodné veličiny X definovaná vztahem x f (x) dx = 0.5. P ř í k l a d: Náhodná veličina X s hustotou pravděpodobnosti f (x) = 1 δ e x δ, x 0 má median x = δ ln (2), protože x 1 0 δ e x δ dx = 1 e x δ =

67 Kvantil! souboru [ kvantil.s ] Kvantil pravděpodobnosti α značíme ζ α a je definován vztahem ζα f (x) dx = α P ř í k l a d: Kvantil pro α = 0.5 je median. P o z n á m k a: Kvantil je taková realizace náhodné veličiny X, pro kterou platí, že vlevo od ní (tedy realizací menších než ζ α ) je právě α 100%. Podobnou definici, ale pro hodnoty vpravo (tedy větší) má kritická hodnota. 67

68 Kritická hodnota! souboru [ krit.hod.s ] Kritickou hodnotu pravděpodobnosti α značíme z α a je definována vztahem z α f (x) dx = α P ř í k l a d: Kritická hodnota exponenciálního rozdělení s hustotou pravděpodobnosti f (x) = 1 δ e x δ pro α = 0.05 je z 0.05 = δ ln (0.05), protože 1 z 0.05 δ e x δ dx = [ ] e x δ = e zα δ = 0.05 z α P o z n á m k a: Kritická hodnota je taková realizace náhodné veličiny X, pro kterou platí, že vpravo od ní (tedy realizací větších než z α ) je právě α 100%. Podobnou definici, ale pro hodnoty vlevo (tedy menší) má kvantil. 68

69 Moment! obecný, souboru [ mom.obec.s ] Obecný souborový moment řádu k značíme m k je definován m k = x k f (x) dx P o z n á m k a: Druhá varianta momentů je centrální moment. 69

70 Moment! centrální, souboru [ mom.cent.s ] Centrální souborový moment řádu k značíme m k je definován m k = kde E [X] je střední hodnota (x E [X]) k f (x) dx, P o z n á m k a: Druhá varianta momentů je obecný moment. 70

71 Kvartil! souboru [ kvartil.s ] Kvartil je kvantil pro pravděpodobnost α = 0.25; 0.5; Tak definujeme Dolní kvartil je ζ 0.25 Prostřední kvartil (median) je ζ 0.5 Horní kvartil je ζ 0.75 kde ζ je kvantil. 71

72 Operátorový počet s E a D [ op.pocet ] Pro operátorový počet se střední hodnotou a rozptylem platí následující pravidla: (X, Y ) jsou náhodné veličiny, α, β jsou konstanty.) Střední hodnota 1. E [α] = α, 2. E [α + X] = α + E [X], 3. E [αx] = αe [X], 4. E [X + Y ] = E [X] + E [Y ] Z předchozího plyne linearita operátoru střední hodnota, tj. vzorec E [αx + βy ] = αe [X] + βe [Y ] Rozptyl 1. D [α] = 0, 2. D [α + X] = D [X], 3. D [αx] = α 2 D [X], 4. D [X + Y ] = D [X] + D [Y ]!!! jen pro X, Y nekorelované!!! 72

73 Náhodný vektor [ nah.vekt ] Náhodný vektor je vektor náhodných veličin. P ř í k l a d: Zjišt ujeme dopravní stav určité křižovatky. V každém rameni je zabudován detektor, měřící intenzitu dopravního proudu. Každé měření dá 4 změřené hodnoty intenzity, což je realizace vektorové náhodné veličiny intenzita v ramenech sledované křižovatky. 73

74 Distribuční funkce! náhodného vektoru [ d.f.vekt ] Distribuční funkce náhodného vektoru X = [X 1, X 2,, X n ] je definována takto kde x=[x 1, x 2,, x n ] je reálný vektor. F (x) = P (X 1 x 1, X 2 x 2,, X n x n ), 74

75 Hp! náhodného vektoru [ h.p.vekt ] Hustota pravděpodobnosti f (x) diskrétního náhodného vektoru X je f (x) = P (X 1 = x 1, X 2 = x 2,, X n = x n ). P o z n á m k a: takto Pomocí distribuční funkce lze hustotu pravděpodobnosti popsat implicitně F (x 1, x 2,, x n ) = f (k 1, k 2,, k n ) k 2 x 2 k n x n k 1 x 1 Hustota pravděpodobnosti f (x) spojitého náhodného vektoru X je n F (x) f (x) = x 1 x 2 x n P o z n á m k a: takto Pomocí distribuční funkce lze hustotu pravděpodobnosti popsat implicitně x1 x2 xn F (x 1, x 2,, x n ) = f (t 1, t 2,, t n ) dt 1 dt 2 dt n 75

76 Hp! marginální [ h.p.marg ] Necht f (x, y) je sdružená hustota pravděpodobnosti náhodných veličin X, Y. Potom f (x) nazveme marginální hustotou pravděpodobnosti, jestliže platí f (x) = f (x, y) dy P ř í k l a d: Pro f (x, y) = e x y, x, y 0 je marginální hustota pravděpodobnosti f (x) = e X. 76

77 Hp! podmíněná [ h.p.podm ] Necht f (x, y) je sdružená hustota pravděpodobnosti náhodných veličin X, Y a f (x) je příslušná marginála. Potom Podmíněná hustota pravděpodobnosti náhodné veličiny Y za podmínky známé realizace náhodné veličiny X je f (y x) = f (x, y) f (x). P ř í k l a d: Pro f (x, y) = e x y, x, y 0 je marginální hustota pravděpodobnosti f (x) = e X. Podmíněná hustota pravděpodobnosti je f (y x) = e x y e x = e y 77

78 Střední hodnota! náhodného vektoru [ s.h.vekt ] Je definována jako vektor středních hodnot jednotlivých složek. Pro X = [X 1, X 2,, X n ] je E [X] = [E [X 1 ], E [X 2 ],, E [X n ]]. P o z n á m k a: Jednotlivé střední hodnoty počítáme pomocí marginální hustoty pravděpodobnosti. 78

79 Kovariance [ kovariance ] Kovariance udává vzájemný vztah dvou náhodných veličin X a Y. Ke-li kovariance nulová, jsou nekorelované. Definice kovariance C [X, Y ] je následující C [X, Y ] = E [(X E [X]) (Y E [Y ])] = (x E [X]) (y E [Y ]) f (x, y) dxdy. P o z n á m k a: V případě diskrétních náhodných veličin se integrály nahradí sumou. 79

80 Nekorelovanost [ nekor ] Náhodné veličiny X a Y jsou nekorelované, jestliže pro jejich kovarianci platí C [X, Y ] = 0. Je-li C [X, Y ] > 0 náhodné veličiny nazýváme pozitivně korelované (jejich změny mají shodné tendence), pro C [X, Y ] < 0 jsou negativně korelované (změny mají protichůdné tendence). P ř í k l a d: Náhodné veličiny X a Y = 5 X jsou pozitivně korelované, náhodné veličiny X a Y = 5 X jsou negativně korelované. P ř í k l a d: Nezávislé náhodné veličiny jsou vždy nekorelované. C [X, Y ] = (x Ex) (y Ey) f (x, y) dxdy = (x Ex) (y Ey) f (x) f (y) dxdy = = (x Ex) f (x) dx (y Ey) f (y) dy = (Ex Ex) (Ey Ey) = 0 80

81 Kovarianční matice [ kov.mat ] Kovarianční matice C X je symetrická pozitivně definitní matice definovaná D[X 1 ] C[X 1, X 2 ] C[X 1 X n ] C X = C[X 2, X 1 ] D[X 2 ] C[X 2, X n ] C[X n, X 1 ] C[X n, X 2 ] D[X n ] Vzájemná kovarianční matice C X,Y je obdélníková matice C[X 1 Y 1 ] C[X 1 Y 2 ] C[X 1 Y n ] C X,Y = C[X 2 Y 1 ] C[X 2 Y 2 ] C[X 2 Y n ] C[X m Y 1 ] C[X m Y 2 ] C[X m Y n ] 81

82 Transformace! náhodné veličiny [ t.nah.vel ] Máme náhodnou veličinu X a její hustotu pravděpodobnosti f X (x). Dále je dána monotónní (bud rostoucí nebo klesající) reálná funkce y = h (x). Potom hustota pravděpodobnosti f Y (y) náhodné veličiny Y, definované jako Y = h (X) je ( f Y (y) = f X h 1 (y) ) h 1 (y) y P ř í k l a d: veličinu Y. Náhodnou veličinu X transformujeme pomocí funkce y = σx, σ > 0 na náhodnou Inverzní funkce je x = 1 σ y a její derivace y = 1 σ > 0 Hustota Y je f Y (y) = f X ( y σ ) 1 σ 82

83 Transformace! náhodného vektoru [ t.nah.vekt ] Je dán náhodný vektor X = [X 1, X 2,, X n ], jeho hustota pravděpodobnosti f X (x) a vzájemně jednoznačná vektorová funkce R n R n : y = h (x). Potom hustota pravděpodobnosti náhodného vektoru Y = h (X) je f Y (y) = f X ( h 1 (y) ) J, kde J je determinant z Jacobiho matice J = h 1 h 1 y 1 h 2 h 2 y 1 h n y 1 h 1 y 2 y n y 2 h 2 y n h n y 2 h n y n P ř í k l a d: Náhodný vektor X = [X 1, X 2 ] transformujeme funkcí [ ] [ ] [ ] y1 1 1 x1 = y x 2 na náhodný vektor Y = [Y 1, Y 2 ]. Hustota pravděpodobnosti náhodného vektoru X je f X (x). Inverzní funkce je [ x1 x 2 ] = [ ] [ y1 y 2 ] x 1 = y 1 y 2 x 2 = y 2 a Jakobián je J = 1. Hustota Y je f Y (y 1, y 2 ) = f X (y 1 y 2, y 2 ) 83

84 Zákon velkých čísel [ z.v.c ] Tento zákon dává do souvislosti odpovídající si souborové a výběrové charakteristiky. Jeho znění je následující: Při rostoucím rozsahu výběru se výběrové charakteristiky blíží odpovídajícím charakteristikám souborovým. P ř í k l a d: Pro velký výběr je x E [X]. 84

85 Centrální limitní věta [ c.l.v ] Centrální limitní věta říká: Součtové výběrové charakteristiky (jako např. výběrový průměr) při rostoucím rozsahu výběru nabývají normálního rozdělení, a to bez ohledu na to, jaké bylo rozdělení souboru. P ř í k l a d: Uvažujeme hod kostkou a jako náhodnou veličinu výběrové průměry z 30 hodů. Tato náhodná veličina má přibližně normální rozdělení se střední hodnotou 3.5 a rozptylem

86 Soubor [ soubor ] Soubor je název pro náhodnou veličinu kterou sledujeme na zkoumaném procesu a jejíž vlastnosti se snažíme odhadnout nebo testovat na základě výběru. P o z n á m k a: Soubor si lze představit jak velikou (většinou nekonečnou) množinu všech potenciálních realizací sledované náhodné veličiny. Tyto realizace vymezují nejen obor hodnot náhodné veličiny, ale svými četnostmi (na malých intervalech) určují také její rozdělení a souborové charakteristiky. 86

87 Parametr rozdělení [ param ] Rozdělení (zde máme na mysli především hustotu pravděpodobnosti) je funkce, která rozděluje pravděpodobnost výskytu realizací náhodné veličiny v celém jejím oboru hodnot. Toto rozdělení může být závislé na nějakém parametru θ. Tomuto parametru (nebo i vektoru parametrů) říkáme parametr rozdělení a příslušnou hustotu pravděpodobnosti označujeme f(x; θ) P ř í k l a d: Exponenciální rozdělení má tvar f(x; δ) = 1 δ e x δ, kde parametr rozdělení δ představuje střední hodnotu. 87

88 Náhodný výběr [ vyber ] Náhodný výběr je vektor nezávislých stejně rozdělených náhodných veličin. P o z n á m k a: Požadavek nezávislosti zaručuje reprezentativnost dat, stejné rozdělení ukazuje na skutečnost, že data měříme stále na tomtéž procesu. P o z n á m k a: Náhodný výběr nese informaci o procesu, ze které proces poznáváme. 88

89 Výběrový průměr [ vyb.prum ] Výběrový průměr je definován vztahem X = 1 n n X i, kde X i jsou náhodné veličiny z náhodného výběru a n je rozsah výběru. i=1 P o z n á m k a: veličina. Výběrový průměr je průměr náhodných veličin a tedy, je to také náhodná 89

90 Výběrový průměr! střední hodnota [ v.p.prum ] Střední hodnota výběrového průměru ze souboru se střední hodnotou µ a rozptylem σ 2 je E[ X] = E[ 1 n X i ] = 1 n E[X i ] = µ n n i=1 i=1 90

91 Výběrový průměr! rozptyl [ v.p.rozpt ] Rozptyl výběrového průměru ze souboru se střední hodnotou µ a rozptylem σ 2 je D[ X] = D [ 1 n ] n X i = 1 n n 2 D[X i ] = σ2 n. i=1 i=1 91

92 Výběrový rozptyl [ v.rozpt ] Výběrový rozptyl je definován vztahem s 2 = 1 n 1 n (x i x) 2 i=1 P o z n á m k a: Výběrový rozptyl se podobá druhému centrálnímu momentu výběru, liší se ale -1 ve jmenovateli. Tento tvar výběrového rozptylu dává nestranný odhad rozptylu souboru σ 2. 92

93 Výběrový podíl [ v.podil ] Výběrový podíl je definován vztahem p = 1 n n i=1 x i 93

94 Moment! obecný, výběrový [ v.mom.obec ] k-tý výběrový obecný moment je definován vztahem M k = 1 n n x k i i=1 94

95 Moment! centrální, výběrový [ v.mom.cent ] k-tý výběrový centrální moment je definován vztahem M k = 1 n n (x i x) k i=1 P o z n á m k a: Druhý centrální moment se podobá výběrovému rozptylu. Na rozdíl od něho má ale ve jmenovateli n a nikoliv n 1. 95

96 Charakteristiky! souborové [ ch.soub ] Jsou to charakteristiky (střední hodnota, rozptyl, modus, median apod.) týkající se souboru, tedy procesu, který sledujeme, který nejsme schopni teoreticky přesně popsat a jehož popis chceme odhadnout na základě výběru.. P ř í k l a d: Je-li X náhodná veličina s rovnoměrným rozdělení na intervalu (0, 2), tedy z hustotou pravděpodobnosti f (x) = 0.5 na tomto intervalu, pak souborová střední hodnota je E [X] = 2 0 x.0.5dx = 1 96

97 Charakteristiky! výběrové [ ch.vyb ] Jsou to charakteristiky (střední hodnota, rozptyl, modus, median apod.) týkající se výběru, tj. datového souboru, který změříme na procesu (souboru) jako realizaci výběru. P ř í k l a d: Na procesu jsme změřili data a roztřídili je podle různých hodnot x i n i Potom výběrová střední hodnota je x = =

98 Statistika [ stat ] Statistika je funkce výběru. P o z n á m k a: Statistika se definuje jako libovolná funkce výběru. Pokud chceme, aby statistika měla dobré odhadovací nebo testovací vlastnosti, musíme ji definovat tak, aby splňovala některé další požadavky. Viz nestrannost, konzistence a vydatnost. P ř í k l a d: Statistika, vhodná pro odhad nebo test střední hodnoty je výběrový průměr. 98

99 Statistika! odhadová [ stat.odh ] Odhadová statistika slouží k odhadu neznámého parametru rozdělení. 99

100 Statistika! testová [ stat.tes ] Testová statistika slouží k testu neznámého parametru rozdělení nebo dalších jeho vlastností. 100

101 Bodový odhad [ bod.odhad ] Bodový odhad ˆθ parametru θ je hodnota statistiky s dosazenou realizací výběru. P ř í k l a d: Sledujeme střední hodnotu rozdělení. Provedli jsme výběr X = [3.2; 5.2; 2.8; 4.2; 3.9] Odhad střední hodnoty je ˆ x = 1 ( ) =

102 Intervalový odhad [ int.sp ] Intervalový odhad (interval spolehlivosti IS) je interval, ve kterém leží neznámý parametr s danou pravděpodobností 1 α. Ekvivalentní definice je následující: IS je interval, ve kterém leží (1 α) 100% všech bodových odhadů. Jednotlivé druhy parametrických odhadů jsou: střední hodnota se známým rozptylem, střední hodnota s neznámým rozptylem, rozptyl, podíl, dvě střední hodnoty, sdružený test, dvě střední hodnoty, nesdružený test, dvě střední hodnoty, párový test, dva podíly. 102

103 Bodový odhad! nestrannost [ b.o.nestr ] Statistika T (X) dává nestranný bodový odhad parametru θ, jestliže platí E[T (X)] = θ P o z n á m k a: Protože náhodný výběr X je náhodný, je statistika T (X) náhodná veličina. Proto má smysl hovořit o její střední hodnotě. Náhodná podstata statistiky je také patrná z představy opakovaného výběru. Provedeme první výběr a spočteme hodnotu statistiky. Další výběr da trochu jinou hodnotu a tak dále. Je to tedy veličina, která dává různé výsledky náhodná veličina. 103

104 Vychýlení bodového odhadu [ b.o.vychyl ] Vychýlení bodového odhadu B je definováno B = E[T (X) θ] P o z n á m k a: Je-li B = 0 je odhad T (X) nestranný. 104

105 Bodový odhad! konzistence [ b.o.konz ] Statistika T (X) dává konzistentní bodový odhad parametru θ, jestliže platí lim P ( T (X) θ < ɛ) = 1 n P o z n á m k a: Tato definice říká, že pro rozsah výběru jdoucí k nekonečnu se bodový odhad nejen neomezeně blíží ke správné hodnotě, ale ještě roste jeho přesnost (rozptyl jde k nule). 105

106 Bodový odhad! vydatnost [ b.o.vydat ] Nestranná statistika T (X) dává tím vydatnější bodový odhad parametru θ, čím má menší rozptyl. P ř í k l a d: Odhadujeme střední hodnotu souboru a k odhadu použijeme realizaci výběru o rozsahu (i) n = 100 a (ii) n = Který odhad bude vydatnější? Rozptyl prvého odhadu bude σ2 n = σ2 σ2 100, rozptyl druhého odhadu je menší, a tedy druhý odhad je vydatnější. n = σ Vidíme, že rozptyl druhého P o z n á m k a: Jestliže statistika není nestranná, nelze pro posouzení vydatnosti použít jen její rozptyl. V tomto případě je měřítkem vydatnosti tzv. charakteristika MSE (mean square error). 106

107 MSE [ m.s.e ] MSE - mean square error (střední kvadratická chyba) je definována MSE = E[(T (X) θ) 2 ], kde T (X) = ˆθ je bodový odhad a θ je odhadovaný parametr. P o z n á m k a: Charakteristika MSE poměřuje jak rozptyl statistiky, tak i její vychýlení. 107

108 Metoda momentů [ met.mom ] Metoda momentů slouží ke konstrukci odhadové statistiky. Je založena na porovnání souborových a výběrových momentů. Označíme-li µ k (θ) ktý obecný souborový moment a µ k ktý obecný výběrový moment, pak odhad parametru θ dostaneme řešením rovnic µ k (θ) = µ k, pro k = 1, 2,..., ν, kde ν je počet neznámých parametrů (dimenze vektoru θ). P o z n á m k a: Odhadujeme-li pouze jeden neznámý parametr, použijeme jen jedinou rovnice, a to pro nulté momenty. Porovnáme střední hodnotu s výběrovým průměrem. 108

109 Metoda maximální věrohodnosti [ met.veroh ] Metoda maximální věrohodnosti slouží ke konstrukci odhadové statistiky. Je založena na maximalizaci věrohodnostní funkce L(θ) L(θ) = n f(x i ; θ), i=1 kde f(x, θ) je zkoumané rozdělení s neznámým parametrem θ, x i jsou prvky výběru a n je rozsah výběru. Platí: Bodový odhad je ˆθ = θ, kde pro θ platí L(θ ) L(θ), θ, tj. bodový odhad je takové θ, pro které L(θ) nabývá svého maxima. P ř í k l a d: Uvažujme exponenciální rozdělení f(x; δ) = 1 δ e x δ. Věrohodnostní funkce je L(δ) = n i=1 1 x i 1 ni 1 x i δ e δ = δ e δ = 1 n x e δ δ Derivace Stacionární bod: L = n n x e δn+1 δ + n x δ n x e δ n+2 L = 0 ˆδ = x P o z n á m k a: Protože je extrém jediný musí se jednat o maximum. 109

110 Značení pro odhady a testy [ znaceni ] Pro odhady a testy používáme následující značení. Obecné n - rozsah výběru, ν - stupně volnosti, pval - p-hodnota. Parametry: µ - souborová střední hodnota, σ, σ 2 - souborová sm. odchylka, rozptyl, π - souborový podíl, Statistiky: x - výběrový průměr, s, s 2 - výběrová směrodatná odchylka, rozptyl, p - výběrový podíl, Kritické hodnoty z α - normální rozdělení, t α - Studentovo rozdělení, χ 2 α - chi2 rozdělení, F α - F rozdělení. 110

111 Odhad střední hodnoty! známý rozptyl [ o.str1.zn ] Bodový odhad ˆµ = x Intervalový odhad ˆµ = x ± σ n z α/2 Rozdělení N(0, 1) - Funkce MATLAB: z int Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 111

112 Odhad střední hodnoty! neznámý rozptyl [ o.str1.nezn ] Bodový odhad Intervalový odhad ˆµ = x ˆµ = x ± s n t α/2 Rozdělení t(n 1)) - Funkce MATLAB: t int Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 112

113 Odhad rozptylu [ o.rozp1 ] Bodový odhad Intervalový odhad Rozdělení ˆσ 2 ( ˆσ 2 = s 2 (n 1)s 2 χ 2, α/2 χ 2 (n 1) ) (n 1)s2 χ 2 1 α/2 - Funkce MATLAB: var int Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 113

114 Odhad podílu [ o.pod1 ] Bodový odhad Intervalový odhad Rozdělení ˆπ = p ± ˆπ = p p(1 p) n N(0, 1) z α/2 - Funkce MATLAB: prop int Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 114

115 Odhad dvou středních hodnot! sdružený [ o.str2.sdr ] Bodový odhad Intervalový odhad kde a s 2 1, s 2 2 jsou výběrové rozptyly. Rozdělení ˆµ 1 ˆµ 2 = x 1 x 2 ˆµ 1 ˆµ 2 = x 1 x 2 ± S p 1 n n 2 t α/2, Sp 2 = (n 1 1)s (n 2 1)s 2 2. n 1 + n 2 2 t(n 1) - Funkce MATLAB: t int 2s Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 115

116 Odhad dvou středních hodnot! nesdružený [ o.str2.nesdr ] Bodový odhad ˆµ 1 ˆµ 2 = x 1 x 2 Intervalový odhad ˆµ 1 ˆµ 2 = x 1 x 2 s 2 1 n 1 + s2 2 n 2 t α/2, kde s 2 1, s 2 2 jsou výběrové rozptyly. Rozdělení t(δ) kde δ = (k 1 + k 2 ) 2 / ( ) k 2 1 n + k n 2 1, k i = s2 i n i, i = 1, 2 - Funkce MATLAB: t int 2n Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 116

117 Odhad dvou středních hodnot! párový [ o.str2.par ] Bodový odhad ˆµ 1 ˆµ 2 = x 1 x 2 Intervalový odhad ˆµ 1 ˆµ 2 = D ± S D n t α/2, kde D i = x 1,i x 2,i, ˆD = 1 n n i=1 D i SD 2 = 1 n n 1 i=1 (D i ˆD) 2. Rozdělení t(n 1) - Funkce MATLAB: t int 2p Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 117

118 Odhad dvou podílů [ o.pod2 ] Bodový odhad Intervalový odhad ˆπ 1 ˆπ 2 = p 1 p 2 ± ˆπ 1 ˆπ 2 = p 1 p 2 π 1 (1 π 1 ) n 1 + π 2(1 π 2 ) n 2 z α/2, Rozdělení N(0, 1) - Funkce MATLAB: prop int 2 Odpovídající test je tady. P o z n á m k a: Zde je shrnuto společné značení pro odhady i testy hypotéz. 118

119 Test parametru rozdělení [ test.par ] Mějme rozdělení f(x; θ), závislé na skalárním nebo vektorovém parametru θ. O tomto parametru vyslovíme dvě tvrzení (hypotézy) Nulovou hypotézu, která obhajuje stávající stav věcí Alternativní hypotézu, která popírá nulovou hypotézu. Podle typu testovaného parametru volíme testovou statistiku střední hodnota se známým rozptylem, střední hodnota s neznámým rozptylem, rozptyl, podíl, dvě střední hodnoty, sdružený test, dvě střední hodnoty, nesdružený test, dvě střední hodnoty, párový test, dva rozptyly, dva podíly. Podle rozdělení statistiky a směrování testu zkonstruujeme kritický obor. Závěr: Jestliže hodnota testové statistiky (po dosazení výběru) padne do kritického oboru, nulovou hypotézu zamítáme. Jinak řekneme, že data nenesou dostatek informací pro zamítnutí (nulové hypotézy). P o z n á m k a: Pozor! Alternativní hypotéza se testem nikdy nepotvrdí ani nevyvrátí. Slouží jen jako záminka pro případné zamítnutí nulové hypotézy. Stejně tak nelze testem potvrdit nulovou hypotézu. Jediné, co lze z testu vyvodit, je zamítnutí nulové hypotézy. 119

120 Nulová hypotéza [ nul.hyp ] Nulová hypotéza H 0 je tvrzení, které obhajuje stav věcí tak, jak doposud byl a tvrdí, že stále je. Toto tvrzení se může týkat určitého parametru rozdělení (střední hodnota, rozptyl, podíl) nebo vlastností celého rozdělení (např. typu rozdělení). Proti nulové hypotéze stojí alternativní hypotéza a popírá ji. P ř í k l a d: Firma, která vyrábí televizní obrazovky, tvrdí, že jejich životnost je 1200 hod. Vývojové oddělení provedlo určité úpravy a říká, že životnost obrazovek vzrostla na 1260 hod. Nulová hypotéza H 0 je: střední hodnota je

121 Alternativní hypotéza [ alt.hyp ] Alternativní hypotéza H A je tvrzení, které vyvrací nulovou hypotézu. Toto vyvracení lze provádět třemi způsoby (je-li H 0 : θ = θ 0 ) H A : θ θ 0, H A : θ > θ 0, H A : θ < θ 0, (test oboustranný), (test pravostranný), (test levostranný). P ř í k l a d: Firma, která vyrábí televizní obrazovky, tvrdí, že jejich životnost je 1200 hod. Vývojové oddělení provedlo určité úpravy a říká, že životnost obrazovek vzrostla na 1260 hod. Alternativní hypotéza (pravostranná) je: střední hodnota je větší než

Zobrazit více