Matematická Statistika. Ivan Nagy, Jitka Kratochvílová
|
|
- Veronika Beranová
- před 9 lety
- Počet zobrazení:
Transkript
1 Texty k přednáškám Matematická Statistika Ivan Nagy, Jitka Kratochvílová
2 Obsah 1 Náhodný výběr Pojem náhodného výběru (Sripta str. 68) Charakteristiky výběru (Sripta str. 69) Výběrový průměr (Sripta str. 70) Charakteristiky výběrového průměru (Sripta str. 70) Rozdělení výběrového průměru (Sripta str. 66,70) Výběrový rozptyl (Sripta str. 71) Výběrový podíl (Sripta str. 72) Výběrové charakteristiky Výběrový průměr při známém rozptylu souboru (Sripta str. 70) Výběrový průměr při neznámém rozptylu souboru (Sripta str. 72) Výběrový rozptyl (Sripta str. 71) Výběrový podíl (Sripta str. 72) Dva výběrové průměry Dva výběrové rozptyly Dva výběrové podíly Bodové odhady a jejich vlastnosti Statistika (Sripta str. 77) Bodový odhad parametru rozdělení (Sripta str. 77) Vlastnosti bodových odhadů (Sripta str. 78) Konstrukce bodových odhadů (Sripta str. 82) Intervalové odhady Pojem intervalu spolehlivosti (Sripta str. 85) Druhy intervalů spolehlivosti pro jednu náhodnou veličinu (Sripta str ) 17 5 Parametrické testy hypotéz Pojem parametrického testu (Sripta str ) Základní pojmy (Sripta str. 97) P-hodnota (Sripta str ) Obecné schéma testu hypotézy (Sripta str. 101) Vybrané parametrické testy (Sripta str )
3 6 Chi2 testy hypotéz Test dobré shody (Sripta str ) Test nezávislosti (Sripta str ) Další neparametrické testy hypotéz Test mediánu Test nezávislosti prvků výběru Test nezávislosti výběrů Test typu rozdělení Regresní analýza Lineární regrese (Sripta str ) Nelineární regrese Korelační analýza (Sripta str ) Intervaly spolehlivosti (Sripta str. 136, ) Testy hypotéz (Sripta str ,140) Analýza rozptylu (ANOVA) ANOVA při jednoduchém třídění ANOVA při dvojném třídění Analýza hlavních komponet Rozklad kovarianční matice Rozklad datové matice
4 1 Náhodný výběr Hlavním úkolem statistiky je rozbor dat, která vykazují náhodné kolísání. Jedná se většinou o data měřená na určitém procesu za účelem (lepšího) poznání tohoto procesu. Například: měříme hustoty a intenzity dopravního proudu na několika místech určité dopravní oblasti, abychom byli schopni (lépe) řídit dopravu v této oblasti. 1.1 Pojem náhodného výběru (Sripta str. 68) Zkoumaný proces chápeme jako náhodnou veličinu s určitým, nám neznámým (nebo ne úplně známým), rozdělením a měřená data jako realizace této náhodné veličiny. Pro jednoduchost a lepší představu se při výkladu omezíme na nejběžnější druh procesu, který nazveme základním statistickým pokusem a který spočívá v dotazu vybrané jednotky z dané množiny jednotek na určitou věc. Množinu všech odpovědí nazveme soubor a podmnožinu získaných odpovědí nazveme výběr. Například: Sledování spotřeby automobilů určitého typu, vyrobené v daném roce a při najetí 5000 km. Souborem jsou spotřeby automobilů vyrobených v daném roce. Výběrem jsou spotřeby sledovaných automobilů. Dotaz je symbolický název pro změření spotřeby automobilu. Jednotka je automobil, vyrobený v daném roce (prvek souboru). Množina spotřeb všech automobilů z daného roku je soubor a podmnožina spotřeb sledovaných automobilů) je výběr. Abychom získali objektivní informace o zkoumaném procesu, je třeba, aby výběr dotazovaných jednotek byl nezávislý. Například: Zjišt ujeme-li průměrné stáří automobilů, je nesmyslné omezit se na autobazary. Jestliže výběr, tj. sérii dotazů, opakujeme, dostaneme jiné odpovědi. Je tím, že dotazy při dalším výběru zahrnou jiné jednotky. Abstraktně lze definovat náhodný výběr jako uspořádanou množinu (vektor) náhodných veličin, jejíž realizací dostaneme jednu konkrétní realizaci výběru číselný vektor. D e f i n i c e 1.1 (Náhodný výběr) Náhodný výběr X = [X 1, X 2,..., X n ] je vektor nezávislých a stejně rozdělených náhodných veličin. Číslo n se nazývá rozsah výběru. Vektor realizací náhodných veličin x = [x 1, x 2,..., x n ] nazveme realizací náhodného výběru. Jedna z typických úloh statistiky je odhad střední hodnoty souboru, přičemž předpokládáme, že typ rozdělení souboru je známý. Odhadujeme jeden z jeho parametrů střední hodnotu. O té vypovídají všechna data náhodného výběru. Je proto užitečné znát rozdělení celého náhodného výběru. T v r z e n í 1.1 (Distribuční funkce náhodného výběru) X = [X 1, X 2,..., X n ] je náhodný výběr a F (x i ), i = 1, 2,..., n je distribuční funkce, určující rozdělení jeho složek. Pak distribuční funkce náhodného výběru H(x ) je rovna součinu distribučních funkcí jeho složek H(x ) = H(x 1, x 2,..., x n ) = F (x 1 )F (x 2 )... F (x n ). 4
5 Ověření: Plyne přímo ze skutečnosti, že složky náhodného výběru jsou nezávislé a distribuční funkce nezávislých náhodných veličin je rovna součinu jejich distribučních funkcí. 1.2 Charakteristiky výběru (Sripta str. 69) Realizace náhodného výběru je datový soubor. Ten lze popsat pomocí charakteristik popisné statistiky. Těmito charakteristikami lze popsat i náhodný výběr, s jednou důležitou odlišností. Charakteristiky datového souboru jsou konstanty (např. pro střední hodnotu platí: sečtu-li daná čísla odpředu nebo odzadu, dostanu vždy totéž). Charakteristiky náhodného výběru jsou náhodné veličiny. Náhodnost zde vzniká vzhledem k opakovaným výběrům. Provedeme-li první výběr a spočteme charakteristiku (např. průměr) této realizace, dostaneme číslo. Další výběr poskytne novou realizaci a protože je náhodný, budou v ní jiná čísla. Proto i charakteristika (průměr) bude mít jinou hodnotu. Tedy: každý výběr dá jinou realizaci a jinou hodnotu charakteristiky realizaci charakteristiky náhodného výběru, která je náhodnou veličinou. Různé charakteristiky náhodného výběru budou dále velmi důležité. Každá zkoumaná vlastnost bude mít svou charakteristiku, které budeme říkat statistika. Protože statistika je náhodná, má své rozdělení (hustotu pravděpodobnosti statistiky). Ta je základním nástrojem pro veškerá odvození klasické statistiky. Nejprve se podrobněji podíváme na nejznámější charakteristiku výběrový průměr, v příští kapitole si pak uvedeme další základní charakteristiky a jejich vlastnosti. 1.3 Výběrový průměr (Sripta str. 70) D e f i n i c e 1.2 (Výběrový průměr) Pro výběr X = [X 1, X 2,..., X n ] ze spojité náhodné veličiny X se střední hodnotou µ a rozptylem σ 2 je výběrový průměr definován vztahem Komentář k definici X = 1 n X i. (1) n 1. Všimněme si, že ve vzorci pro výběrový průměr figurují velká písmena. Není to tedy průměr z čísel, ale formálně zapsaný průměr z náhodných veličin. 1.4 Charakteristiky výběrového průměru (Sripta str. 70) Pro výběrový průměr, jako náhodnou veličinu, uvedeme jeho střední hodnotu a rozptyl. Jsou to vlastně charakteristiky definované na charakteristice výběrový průměr. Tyto charakteristiky se počítají pro všechny možné hodnoty výběrového průměru. Závisí proto na všech realizacích souboru. Jsou to tedy již konstanty (důkladně rozmyslet). P ř í k l a d: Uvažujme soubor s hodnotami {1, 2, 3} a výběr z tohoto souboru o rozsahu n = 2. Všechny možné výběry jsou uvedeny jako sloupce následující tabulky 5
6 možné výběry výb. průměry Jestliže zprůměrujeme všechny výběrové průměry, dostaneme střední hodnotu výběrového průměru. Zde je to 2. Střední hodnota výběrového průměru X je rovna střední hodnotě souboru E[X] = µ [ ] 1 n E[X ] = E X i = 1 n E[X i ] = 1 n µ = 1 nµ = µ. (2) n n n n Rozptyl výběrového průměru X je roven rozptylu souboru D[X] = σ 2, dělenému rozsahem výběru n [ ] 1 n s 2 = D[X ] = D X X i = 1 [ n ] n n D 1 n X 2 i }{{} = D[X n 2 i ] = 1 nezávislost n 2 nσ2 = σ2 n. (3) 1.5 Rozdělení výběrového průměru (Sripta str. 66,70) Pro výběr z náhodné veličiny s normálním rozdělením N(µ, σ 2 ), nebo pro dostatečně velký výběr (viz Centrální limitní věta) platí X N(E[X ], D[X ]) = N(µ, σ 2 /n) tj, výběrový průměr má normální rozdělení se střední hodnotou µ a rozptylem σ 2 /n. 1.6 Výběrový rozptyl (Sripta str. 71) D e f i n i c e 1.3 (Výběrový rozptyl) Pro výběr X = [X 1, X 2,..., X n ] ze spojité náhodné veličiny X se střední hodnotou µ a rozptylem σ 2 je výběrový rozptyl definován vztahem S 2 = 1 n (X i X) 2. (4) n Výběrový podíl (Sripta str. 72) D e f i n i c e 1.4 (Výběrový podíl) Pro výběr X = [X 1, X 2,..., X n ] z alternativní náhodné veličiny X se souborovým podílem π je výběrový podíl definován vztahem p = n+ n, (5) kde n + je počet příznivých pokusů ve výběru a n je rozsah výběru. 6
7 2 Výběrové charakteristiky Výběrový průměr je nejznámější, ale zdaleka ne jedinou charakteristikou výběru. Nyní uvedeme ty charakteristiky, které budeme dále nejčastěji používat. Mohou se týkat jednoho nebo dvou výběrů. Jeden náhodný výběr Uvažujeme výběr z jednoho rozdělení, např. zjišt ujeme stáří náhodně vybraných automobilů. Budeme sledovat tři základní charakteristiky náhodného výběru: výběrový průměr, rozptyl a podíl. Protože je výběr náhodný, jsou i tyto charakteristiky náhodné a každá z nich má své rozdělení. 2.1 Výběrový průměr při známém rozptylu souboru (Sripta str. 70) Normovaný výběrový průměr z normálního rozdělení N(µ; σ 2 ), nebo dostatečně velký výběr z libovolného rozdělení se střední hodnotou µ a rozptylem σ 2 je a má normované normální rozdělení N(0; 1). Z = X µ σ n N(0, 1) (6) 2.2 Výběrový průměr při neznámém rozptylu souboru (Sripta str. 72) V případě neznámého rozptylu souboru, ze kterého je výběr pořízen, se neznámý rozptyl odhadne pomocí výběrového rozptylu (4). Normovaný výběrový průměr je definován a má Studentovo rozdělení s n 1 stupni volnosti. t = X µ S n St(n 1) (7) 2.3 Výběrový rozptyl (Sripta str. 71) Normovaný výběrový rozptyl je definován vztahem a má rozdělení rozdělení χ 2 s n 1 stupni volnosti. χ 2 = (n 1)S2 σ 2 Chi2(n 1) (8) 7
8 2.4 Výběrový podíl (Sripta str. 72) Normovaný výběrový podíl je Z = p π n N(0; 1) (9) p(1 p) a má přibližně normální normované rozdělení N(0; 1). To platí pro np > 5 a zároveň n(1 p) > 5. Dva náhodné výběry Uvažujeme dva výběry, tj. dvě náhodné veličiny, které chceme zkoumat. Například měříme nahuštění předních pneumatik u náhodně vybraných automobilů. Tlak v levé pneumatice je realizací první náhodné veličiny, tlak v pravé je realizací druhé náhodné veličiny. Charakteristikami budou opět průměr, rozptyl a podíl a vztahují se na rozdíl obou náhodných veličin. Předpokládáme, že rozptyl rozdělení není znám a je nahrazen výběrovým rozptylem. Značíme: x 1, x 2 výběry, n 1, n 2 rozsahy výběrů, µ 1, µ 2 střední hodnoty výběrů a σ 2 1, σ 2 2 rozptyly výběrů. 2.5 Dva výběrové průměry 74 Normovaný rozdíl dvou výběrových průměrů při shodných rozptylech t = X 1 X 2 (µ 1 µ 2 ) St(n 1), S S P 1/n 1 +1/n P 2 = (n 1 1)S1 2 + (n 2 1)S2 2 2 n 1 + n 2 2 a má Studentovo rozdělení s n 1 stupni volnosti.. (10) Normovaný rozdíl dvou výběrových průměrů při různých rozptylech t = X 1 X 2 (µ 1 µ 2 ) S 2 1 /n 1 +S2 2/n 2 St(n 1) (11) a má Studentovo rozdělení s δ stupni volnosti, kde δ = (k 1 + k 2 ) 2 k 2 1 n k2 2 n 2 1, k 1 = s2 1 n 1, k 2 = s2 2 n 2 Normovaný rozdíl dvou výběrových průměrů při párových výběrech t = D (µ 1 µ 2 ) S D n St(n 1), (12) 8
9 kde D = X 1 X 2, D je výběrový průměr a S D výběrový rozptyl náhodného vektoru D. D i = X 1,i X 2,i ; D = 1 n n D i ; S 2 D = 1 n 1 n (D i D) 2 Tato charakteristika má Studentovo rozdělení s n 1 stupni volnosti. P ř í k l a d: Sledujeme nahuštění předních pneumatik u osobních automobilů. U každého auta změříme tlak v levé pneumatice (prvek výběru 1) a v pravé pneumatice (prvek výběru 2). Tedy, pro každý objekt (automobil) měříme dvě vlastnosti (pravou a levou pneumatiku). Tak dostaneme párové výběry. P o z n á m k a: Párový rozdíl výběrových průměrů dostaneme tak, že odečteme položky jednotlivých výběrů, tak dostaneme výběr D a z něho sestavíme obyčejný normovaný výběrový průměr (7). 2.6 Dva výběrové rozptyly Normovaný podíl dvou výběrových rozptylů F = S2 1 S 2 2 F (n 1 1, n 2 1). (13) Tato charakteristika má F rozdělení s n 1 1 stupni volnosti pro čitatele a n 2 1 stupni volnosti pro jmenovatele. 2.7 Dva výběrové podíly Normovaný rozdíl dvou výběrových podílů podíly π 1 a π 2 je Z = p 1 p 2 (π 1 π 1 ) a má přibližně normální rozdělení N(0; 1). π 1 (1 π 1 ) n 1 + π 2 (1 π 2 ) p 1 a p 2 pro dvě alternativní rozdělení s n 2 N(0; 1) (14) 9
10 3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Sripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe rozdělení souboru až na jeden nebo více parametrů. Např. víme, že rozdělení souboru je normální, ale neznáme jeho střední hodnotu, případně i rozptyl. Z výběru se snažíme hodnoty těchto neznámých parametrů odhadnout. Předpis, pomocí kterého z výběru vypočteme hodnotu neznámého parametru se nazývá statistika. V souladu s tím je i následující definice. D e f i n i c e 3.1 (Statistika) Statistika T = T (X ) je funkce výběru X. Komentář k definici 1. Statistika určená pro odhadování se nazývá odhadová statistika, pro testování testová statistika. 2. Definice neříká nic o tom, jak statistiku volit vzhledem k jejímu cílovému využití (odhad, test). Její vhodnost či nevhodnost budeme zkoumat později. 3.2 Bodový odhad parametru rozdělení (Sripta str. 77) D e f i n i c e 3.2 (Bodový odhad) Sledujeme rozdělení s hustotou pravděpodobnosti f(x; θ) s neznámým parametrem θ. Provedli jsme realizaci náhodného výběru x = (x 1, x 2,..., x n ) z tohoto rozdělení a definovali statistiku T (X ). Bodový odhad ˆθ parametru θ pro realizaci náhodného výběru x je hodnota statistiky T s dosazenou realizací náhodného výběru x ˆθ = T (x ) (15) Komentář k definici 1. Pro každou novou realizaci výběru obdržíme jiný bodový odhad. Odtud je zřejmé, že bodový odhad nemůže dát úplně přesnou hodnotu parametru. 2. Vlastní volbu statistiky jsme zatím nechali stranou. Lze pro ni použít metodu momentů nebo maximální věrohodnosti, o které se zmíníme. Statistiku je také možno volit heuristicky, potom je však třeba ověřit její vlastnosti. P ř í k l a d: Odhadujeme parametr střední hodnotu µ. Provedli jsme výběr x = {x 1, x 2,..., x n } = {3, 5, 2, 4, 5}. Protože víme, že střední hodnotu si lze přibližně představit jako průměr všech možných realizací, usoudíme, že jejím vhodným odhadem bude aritmetický průměr x = 1 n n x i. Po dosazení realizace výběru dostaneme x = 19/5. Vlastnosti zvolené statistiky je však třeba ověřit (viz dále). 10
11 3.3 Vlastnosti bodových odhadů (Sripta str. 78) Vlastnosti bodového odhadu ˆθ vypovídají o vhodnosti použité statistiky T k odhadu hodnoty parametru θ. Uvedeme tři vlastnosti: nestrannost, konzistenci a vydatnost. {{}} Nestrannost 1 D e f i n i c e 3.3 (Nestrannost) Statistika T poskytuje nestranný bodový odhad parametru θ, jestliže její střední hodnota se rovná tomuto parametru E[T ] = θ (16) Komentář k definici 1. Střední hodnotu E[T ] je třeba chápat jako průměrování přes všechny možné výběry. Jestliže bychom chtěli naznačit výpočet této střední hodnoty, bylo by třeba postupovat takto: provedeme první výběr, spočteme bodový odhad, provedeme druhý výběr a opět spočteme bodový odhad, atd. Po provedení všech možných výběrů uděláme průměr ze všech jednotlivých bodových odhadů. To je hledaná střední hodnota. 2. Nestrannost říká, že odhad je v průměru (rozumíme přes všechny možné výběry) přesný. P ř í k l a d: Ověříme nestrannost výběrového průměru vzhledem ke střední hodnotě. Máme dokázat, že platí E[X ] = µ. Dosadíme definici výběrového průměru a manipulujeme s operátorem střední hodnoty [ ] 1 n E[X ] = E X i = 1 n E[X i ] = 1 n µ = µ n n n Vychýlení bodového odhadu B(θ) 2 statistiky a odhadovaným parametrem je definováno jako rozdíl mezi střední hodnotou B(θ) = E(T ) θ (17) P o z n á m k a: Z definice nevychýlenosti přímo plyne, že je-li statistika T pro odhad parametru θ nevychýlená, pak vychýlení B(θ) je nulové. Konzistence 3 D e f i n i c e 3.4 (Konzistence) 1 Skripta str Skripta str Skripta str
12 Statistika T dává konzistentní bodový odhad parametru θ, jestliže pro rostoucí rozsah výběru se hodnota statistiky (v pravděpodobnosti) neomezeně blíží skutečnému parametru Komentář k definici lim P ( T θ < ɛ) = 1, ɛ > 0 (18) n Tato vlastnost je limitní. Lze ji sledovat jen při zvětšujícím se rozsahu výběru např. změříme 10 hodnot, pak 100, atd. T v r z e n í 3.1 (Kriterium konzistence 4 ) Odhad je konzistentní, jestliže je asymptoticky nestranný, jeho rozptyl jde k nule s rozsahem výběru jdoucím k nekonečnu. Ověření: Plyne z použití Čebyševovy nerovnosti pro obecný odhad. P ř í k l a d: Ověříme konzistenci výběrového průměru vzhledem k odhadu střední hodnoty. Pro důkaz využijeme Čebyševovu nerovnost (??), kterou zapíšeme pro výběrová průměr a střední hodnotu σ 2 Protože lim = 0, je odhad konzistentní. n nɛ2 Vydatnost 5 D e f i n i c e 3.5 (Vydatnost) P ( X µ < ɛ) > 1 σ2 nɛ 2 Pro dvě nestranné statistiky T a U definujeme jako vydatnější tu z nich, která má menší rozptyl D[T ] < D[U] = T je vydatnější než U (19) P o z n á m k a: Pro posouzení dvou statistik, které nejsou nestranné, je třeba zavést středně kvadratickou chybu MSE 6 definovanou vztahem MSE = E[(T θ) 2 ] = D[T ] + (B(θ)) 2 (20) Jako vydatnější definujeme statistiku s menší M SE. (Pro nestranné statistiky M SE přechází na rozptyl a obě definice jsou shodné.) Ze vztahu pro M SE je patrné, že v obecném případě tato charakteristika posuzuje jak rozptyl odhadové statistiky, tak i její vychýlení. M SE bude minimální, jestliže bude minimální rozptyl i vychýlení statistiky. 5 Skripta str Skripta str
13 3.4 Konstrukce bodových odhadů (Sripta str. 82) Řekli jsme co je bodový odhad a jaké u něho sledujeme vlastnosti. Nyní se budeme věnovat otázce, jak lze takový odhad zkonstruovat. Ukážeme dvě základní metody pro konstrukci statistiky, vhodné pro odhad daného parametru. Metoda momentů 7 Tato metoda je velmi jednoduchá, obecně však nedává příliš kvalitní výsledky. Spočívá v porovnání obecných (nebo centrálních) momentů souboru a výběru. Podle toho, kolik parametrů odhadujeme, tolik momentů musíme porovnat. Momenty souboru počítáme s pomocí hustoty pravděpodobnosti souboru f(x, θ). Budou tedy obsahovat neznámý parametr θ. Výběr je množina změřených hodnot. Moment výběru bude tedy číslo. Porovnáním momentů získáme rovnice kde neznámé budou odhadované parametry. Z nich odhad vypočteme. P ř í k l a d: Budeme odhadovat neznámý parametr δ exponenciálního rozdělení s hustotou pravděpodobnosti f(x, δ) = δ exp{ δ x}, δ > 0, x (0, ) z výběru x = [x 1, x 2,..., x n ]. Protože odhadujeme jediný parametr, stačí porovnat první momenty, tj. střední hodnotu souboru (exponenciálního rozdělení) a výběrový průměr změřeného výběru. Střední hodnota souboru je Výběrový průměr je Porovnáním dostaneme E[X] = 0 x f(x, δ) dx = x = 1 n x i = číslo. n 1 δ = x ˆδ = 1 x, kde symbolem ˆδ jsme označili bodový odhad parametru δ. 0 x δ exp{ δx}dx = 1/δ. Metoda maximální věrohodnosti 8 Odhad pro obecné rozdělení Tato metoda dává velmi kvalitní výsledky a je často používána. Pro normální rozdělení souboru je ekvivalentní s metodou nejmenších čtverců, o které budeme mluvit v regresní analýze. Metoda je založena na minimalizaci tzv. věrohodnostní funkce nebo jejím logaritmu (což je totéž proč?). 7 Skripta str Skripta str
14 D e f i n i c e 3.6 (Věrohodnostní funkce) Pro rozdělení s hustotou pravděpodobnosti f(x, θ) a realizaci náhodného výběru x = [x 1, x 2,..., x n ] definujeme věrohodnostní funkci L n (θ) vztahem D e f i n i c e 3.7 (Maximálně věrohodný odhad) n L n (θ) = f(x i, θ). (21) Maximálně věrohodným odhadem parametru θ rozdělení f(x, θ) nazveme odhad ˆθ θ, který maximalizuje (logaritmus) věrohodnostní funkce, tj. platí log L n (ˆθ) log L n (θ), θ θ (22) kde θ označuje množinu všech přípustných hodnot parametru θ. Obecný postup při určení maximálně věrohodného odhadu je následující: 1. Sestavíme věrohodnostní funkci tak, že násobíme hustoty pravděpodobnosti souboru a do každé dosadíme za x jeden prvek výběru x i. 2. Je-li to výhodné, věrohodnostní funkci logaritmujeme. Protože řada rozdělení má hustotu pravděpodobnosti ve tvaru exponenciály, bývá logaritmus užitečný pro zjednodušení součinu. Není však nutný. 3. Hledáme maximum logaritmu věrohodnostní funkce. V jednoduchém případě např. pomocí derivace, ve složitějším případě numericky. Bod, kde leží maximum je maximálně věrohodný odhad. Odhad pro exponenciální třídu rozdělení D e f i n i c e 3.8 (Exponenciální třída rozdělení) Řekneme, že hustota pravděpodobnosti patří do exponenciální třídy, jestliže je možno ji zapsat ve tvaru f(x, θ) = exp{q(θ) U(x) + R(θ) + V (x)}, (23) kde Q, R jsou funkcemi jen θ (ne x) a U, V jsou funkcemi jen x (ne θ). P ř í k l a d: Alternativní rozdělení je z exponenciální třídy, nebot platí f(x, π) = π x (1 π) 1 x = exp{log(π x (1 π) 1 x )} = = exp{x log(π) + (1 x) log(1 π)} = exp{[log(π) log(1 π)] x + log(1 π)}. Zde platí: Q = log(π) log(1 π), U = x, R = log(1 π), V = 0. Je-li rozdělení z exponenciální třídy, dostáváme následující jednoduché řešení úlohy maximálně věrohodného odhadu. 14
15 T v r z e n í 3.2 (Max. věr. odhad pro exponenciální třídu) Pro rozdělení s hustotou pravděpodobnosti f(x, θ) = exp{q(θ) U(x)+R(θ)+V (x)} a realizaci výběru x = [x 1, x 2,..., x n ] je extrém logaritmické věrohodnostní funkce dán řešením rovnice Q (θ) S(x) + n R (θ) = 0, kde Q, R jsou derivace podle θ a S(x) = n U(x i ). Aby nalezený extrém byl maximum, musí být ještě splněna nerovnost Q (θ)s(x) + n R < 0. Ověření: Věrohodnostní funkce je { n n } L n (θ) = exp{q(θ) U(x i ) + R(θ) + V (x i )} = exp (Q(θ) U(x i ) + R(θ) + V (x i )) = { } n n = exp Q(θ) U(x i ) + nr(θ) + V (x i ). Tento výraz logaritmujeme a se zavedeným značením dostaneme n log L n (θ) = Q(θ)S(x) + nr(θ) + V (x i ). Po derivaci podle θ poslední výraz zmizí. Anulováním derivace dostáváme podmínku pro extrém. Podmínka pro maximum je záporná druhá derivace. P ř í k l a d: Metodou maximální věrohodnosti určete odhadovou statistiku pro parametr π alternativního rozdělení. Uvažujeme alternativní rozdělení, jehož exponenciální tvar jsme již odvodili (viz příklad k (23)) a zjistili jsme, že platí Q = log(π/(1 π)), U = x, R = log(1 π), V = 0. Abychom mohli použít tvrzení 3.2, potřebujeme ještě spočítat funkci S příslušné derivace. S = n x i = nx, Q = 1 π(1 π), Q = 2π 1, R π 2 (1 π) = π, R = 1 (1 π) 2 Podmínka extrému Q S + nr 1 = π(1 π) nx n 1 1 π = 0 ˆπ = x Podmínka maxima (s dosazeným odhadem x = ˆπ) 2ˆπ 1 ˆπ 2 (1 ˆπ) 2 nˆπ n 1 (1 ˆπ) 2 < 0 ˆπ < 1 což je vždy splněno, nebot π = 1 je patologický případ. 15
16 4 Intervalové odhady 4.1 Pojem intervalu spolehlivosti (Sripta str. 85) Bodové odhady poskytují hodnotu odhadu, ale neříkají nic o jeho přesnosti. Ta je zahrnuta v intervalu spolehlivosti - tj. intervalu, ve kterém leží neznámý parametr s danou pravděpodobností. Přesnost (nebo neurčitost) odhadu je dána šířkou intervalu. Z definice pravděpodobnosti vyplývá, že pravděpodobnost parametru v daném intervalu je asymptoticky rovna relativní četnosti odhadů, které padnou do tohoto intervalu (při opakovaných výběrech). Proto lze interval spolehlivosti charakterizovat také jako interval, do kterého padne dané procento odhadů. Relativní četnost odhadů určuje hustota pravděpodobnosti statistiky pro bodový odhad. Ta je také základem pro určení intervalu spolehlivosti. D e f i n i c e 4.1 (Interval spolehlivosti) Interval I α = (θ D, θ H ) nazveme α-interval spolehlivosti pro parametr θ, jestliže platí Komentář k definici 1. Interval spolehlivosti budeme zkracovat IS. P (θ I α ) = 1 α. (24) 2. I α se také nazývá 100(1 α)-procentní interval spolehlivosti, tj IS je 95% IS. 3. Pokud je < θ D a θ H <, tj. I α je zdola i shora omezený, hovoříme o oboustranném IS. Je-li θ D =, tj. I α = (, θ H ), jedná se o pravostranný IS, pro θ H =, tj. I α = (θ D, ) jde o levostranný IS. P ř í k l a d: Určete 95% IS pro střední hodnotu µ normálního rozdělení s rozptylem σ 2 = 1 na základě výběru o rozsahu n = 100 s průměrem x = 3.7. Podle požadavků na IS musí platit Normujeme P (µ D < x < µ H ) = 1 α. P (ζ α < x µ 2 n < z α σ ) = 1 α 2 a v argumentu vyjádříme µ a použijeme vztah ζ α = z α 2 2 z α 2 σ n < x µ < z α 2 Upravenou podmínku dosadíme zpět P (x z α 2 σ n x z α 2 σ n < µ < x + z α 2 σ n < µ < x + z α 2 σ n ) = 1 α σ n. 16
17 Podle definice je IS nebo píšeme I α = (x z α 2 σ n, x + z α 2 σ µ = x ± z α. 2 n σ n ) Na obrázku je hustota pravděpodobnosti bodového odhadu, tj. výběrového průměru a na ní jsou vyznačeny příslušné pravděpodobnosti, kvantil a kritická hodnota. f(z) α 2 1 α α 2 ζ α 2 z α 2 Konkrétně: α = 0.05/2 = 0.025; x = 3.7; σ = 1; n = 100; z α 2 I 0.05 = ( ; ) = (3.504; 3.896) 10 = 1.96 (z tabulek) 4.2 Druhy intervalů spolehlivosti pro jednu náhodnou veličinu (Sripta str ) Budeme uvažovat následující IS. Střední hodnota (známé σ 2 ) 9 I α : µ x ± σ z α/2, z N(0; 1) n V programu O c t a v e lze pro tento interval použít funkci is=z int(x,v,alpha,alt), kde is je interval spolehlivosti, x je výběr, v je rozptyl souboru, alpha je hladina významnosti, alt typ testu (<, >, <>) 9 Skripta str
18 Střední hodnota (neznámé σ 2 ) 10 I α : µ x ± s n t α/2, t St(n 1) V programu O c t a v e lze pro tyto intervaly použít funkci is=t int(x,alpha,alt), is=t int 2s(x1,x2,alpha,alt), is=t int 2n(x1,x2,alpha,alt), is=t int 2p(x1,x2,alpha,alt), kde is je interval spolehlivosti, x,x1,x2 výběr, alpha hladina významnosti, alt typ testu (<, >, <>) Rozptyl 11 I α : (n 1)s2, χ 2 α/2 (n 1)s 2, χ 2 Chi 2 (n 1) χ 2 1 α/2 V programu O c t a v e lze pro tento interval použít funkci is=var int(x,alpha,alt), kde is je interval spolehlivosti, x výběr, alpha hladina významnosti, alt typ testu (<, >, <>) Podíl 12 p(1 p) I α : π p ± z α/2, z N(0; 1) n V programu O c t a v e lze pro tento interval použít funkci is=prop int(x,n,alpha,alt), is=prop int 2(x1,n1,x2,n2,alpha,alt), kde is je interval spolehlivosti, x,x1,x2 je výběrový podíl nebo počet, alpha hladina významnosti, alt typ testu (<, >, <>) Doplněk k uvedeným intervalům: 10 Skripta str Skripta str Skripta str
19 výběrový průměr: x = 1 n n x i, výběrový rozptyl: s 2 = 1 n (x n 1 i x ) 2, výběrový podíl: p = n+ n, n+ je počet jedniček (úspěchů). P ř í k l a d: V jakém intervalu lze očekávat životnost zakoupené pneumatiky s pravděpodobností 0.95, jestliže pro 10 náhodně vybraných pneumatik byly zjištěny následující životnosti (v rocích) Přípravné výpočty: Interval: x = 5.9, s = 2.183, t (9) = I 0.05 = (4.34; 7.46) 19
20 5 Parametrické testy hypotéz 5.1 Pojem parametrického testu (Sripta str ) Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f(x, θ). První tvrzení (které většinou obhajuje stávající stav věcí) se nazývá nulová hypotéza a značí se H 0, druhé tvrzení (které většinou prosazuje, že věci se změnily) je alternativní hypotéza označená H A. Nulová hypotéza něco tvrdí: např., že střední hodnota µ je rovna µ 0 a alternativní hypotéza ji odporuje. To může mít tři různé podoby: hypotéza příklad I. parametr má podle H A větší hodnotu než podle H 0 µ > µ 0 II. parametr má podle H A menší hodnotu než podle H 0 µ < µ 0 III. parametr se podle H A nerovná hodnotě parametru podle H 0 µ µ 0 (25) Tvrzení testujeme na základě testové statistiky, kterou je statistika pro bodový odhad parametru podle H 0. Pro parametrické testy lze podstatu testování vyložit v souvislosti s IS následujícím způsobem (pro jednoduchost budeme uvažovat test pro střední hodnotu a se známým rozptylem souboru). Nulová hypotéza říká, že µ = µ 0. Jestliže je tato hypotéza pravdivá a kolem bodu µ 0 sestrojíme α IS a tam by s také s pravděpodobností 1 α měl padnout bodový odhad, pořízený z výběru. Pokud tam padne, hypotézu H 0 nezamítáme řekneme, že data neprokázala její neplatnost. Pokud bodový odhad padne mimo IS, hypotézu H 0 zamítneme. Jediný (formální) rozdíl testů a intervalů je v tom, že při intervalu používáme nenormovaný tvar statistiky, např. pro střední hodnotu se známým rozptylem je to výběrový průměr X, zatímco pro test použijeme normovaný výběrový průměr z = X µ 0 σ n. Jeho realizaci označíme zr. P o z n á m k a: Všimněte si, že pro normování použijeme µ 0, což je střední hodnota podle nulové hypotézy. Celý test probíhá za platnosti H 0, která bud dále trvá, nebo je testem vyvrácena. f(z H 0 ) α/2 1 α α/2 IS z r 5.2 Základní pojmy (Sripta str. 97) V předchozím odstavci jsme dosti netradičně nastínili podstatu testování parametrických hypotéz. Nyní uvedeme základní pojmy a postupy pro testování tak, jak je lze běžně nalézt v učebnicích klasické statistiky. Pojmy budeme ihned demonstrovat na následujícím příkladě. 20
21 P ř í k l a d: Závod vyrábí televizní obrazovky u kterých udává střední životnost 1200 h a rozptyl životnosti 900 h 2. Vývojové oddělení provedlo některé technologické změny při výrobě a tvrdí, že životnost nově vyrobených obrazovek je větší. Své tvrzení dokládá výběrem 10 obrazovek z nové série pro něž byla zjištěna průměrná životnost 1216 h. Testujte H 0 : střední životnost obrazovek je 1200 hodin na hladině významnosti Nulová hypotéza H 0 je základní hypotéza, která většinou potvrzuje stávající stav. [H 0 : střední životnost obrazovek je 1200 h.] Alternativní hypotéza H A je nová hypotéza, která jedním ze způsobů (25) popírá H 0. [H A : střední životnost obrazovek je větší.] Testová statistika je normovaná statistika pro bodový odhad testovaného parametru. [Zde se jedná o střední hodnotu, jejíž odhadová statistika je výběrový průměr.] Dále se jako parametr bude objevovat rozptyl se statistikou výběrový rozptyl a podíl se statistikou výběrový podíl. Hladina významnosti α je pravděpodobnost α z IS. Je to tzv. pravděpodobnost I. druhu, tj., že H 0 bude zamítnuta, zatímco je ve skutečnosti pravdivá. [V příkladu je α = 0.05, což bývá nejčastěji používaná hodnota.] Obor přijetí je množina hodnot normované statistiky, která odpovídá IS. Pokud normovaná statistika padne do oboru přijetí, není H 0 zamítnuta. Kritický obor W je množina hodnot normované statistiky, která odpovídá doplňku IS. Pokud normovaná statistika padne do kritického oboru, je H 0 zamítnuta. P o z n á m k a: Podle alternativní hypotézy H A poznáme směrování testu. pro W = ( ; ) podle I. hovoříme o pravostranném testu; pro W = ( ; ) podle II. hovoříme o levostranném testu; pro W = ( ; ) ( ; ) podle III. hovoříme o oboustranném testu. P ř í k l a d: (pokračování) Vypočteme příklad o televizních obrazovkách. Statistika pro odhad: x = 1216 (zadáno). Hladina významnosti: α = 0.05 (zadáno). Normovaná statistika: z r = x µ 0 σ n = = Obor přijetí: dostaneme normováním pravostranného IS, tj. ( ; z α ) = ( ; 1.645). Kritický obor: je doplňkem oboru přijetí, tj. W = (1.645; ). Závěr: z W H 0 zamítáme. Tedy, není pravda, že střední životnost obrazovek je 1200 hodin. 21
3 Bodové odhady a jejich vlastnosti
3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe
5 Parametrické testy hypotéz
5 Parametrické testy hypotéz 5.1 Pojem parametrického testu (Skripta str. 95-96) Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f(x, θ). První tvrzení (které většinou
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.
Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
6. T e s t o v á n í h y p o t é z
6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně
Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:
Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka
11 Analýza hlavních komponet
11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11
Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:
Testování statistických hypotéz
Testování statistických hypotéz Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 11. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 27 Obsah 1 Testování statistických hypotéz 2
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.
Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr
StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule
Testy. Pavel Provinský. 19. listopadu 2013
Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
Charakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
Základy teorie odhadu parametrů bodový odhad
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Odhady parametrů Úkolem výběrového šetření je podat informaci o neznámé hodnotě charakteristiky základního souboru
Odhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.
8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) e, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá normované
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
2 ) 4, Φ 1 (1 0,005)
Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice
9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky
5. T e s t o v á n í h y p o t é z
5. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Korelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.
VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin
Příklady k procvičení z Matematické statistiky Poslední úprava. listopadu 207. Konvergence posloupnosti náhodných veličin. Necht X, X 2... jsou nezávislé veličiny s rovnoměrným rozdělením na [0, ]. Definujme
letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
Číselné charakteristiky a jejich výpočet
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky
Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
Cvičení ze statistiky - 9. Filip Děchtěrenko
Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz
Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.
Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která
REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ
REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ 5 přednáška S funkcemi se setkáváme na každém kroku ve všech přírodních vědách ale i v každodenním životě Každá situace kdy jsou nějaký jev nebo veličina jednoznačně určeny
Obsah. 3 Testy 31 3.1 z test... 32 3.2 z test 2... 33 3.3 t test... 34 3.4 t test 2s... 35
Obsah 1 Popisná statistika 4 1.1 bas stat........................................ 5 1.2 mean.......................................... 6 1.3 meansq........................................ 7 1.4 sumsq.........................................
Stavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
Testování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
Jednofaktorová analýza rozptylu
Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato
Statistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
8. Normální rozdělení
8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, 2 ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) 2 e 2 2, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
Náhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1
PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1 Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované
10. N á h o d n ý v e k t o r
10. N á h o d n ý v e k t o r 10.1. Definice: Náhodný vektor. Uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n, nazýváme náhodným vektorem. Poznámka: Pro jednoduchost budeme zavádět
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ STATISTIKA. Semestrální práce
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ STATISTIKA Semestrální práce Lukáš Sůva, Jakub Culek (2 31) 20/2013 Ú vod Předmětem naší semestrální práce jsme si zvolili průzkum překračování povolené
2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
8 Střední hodnota a rozptyl
Břetislav Fajmon, UMAT FEKT, VUT Brno Této přednášce odpovídá kapitola 10 ze skript [1]. Také je k dispozici sbírka úloh [2], kde si můžete procvičit příklady z kapitol 2, 3 a 4. K samostatnému procvičení
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně
7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =
Příklad 1 Metodou nejmenších čtverců nalezněte odhad lineární regresní funkce popisující závislost mezi výnosy pšenice a množstvím použitého hnojiva na základě hodnot výběrového souboru uvedeného v tabulce.
4. Aplikace matematiky v ekonomii
4. Aplikace matematiky v ekonomii 1 Lineární algebra Soustavy 1) Na základě statistických údajů se zjistilo, že závislost množství statku z poptávaného v průběhu jednoho týdne lze popsat vztahem q d =
PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2]
PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2] Použitá literatura: [1]: J.Reif, Z.Kobeda: Úvod do pravděpodobnosti a spolehlivosti, ZČU Plzeň, 2004 (2. vyd.) [2]: J.Reif: Metody matematické
Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
Normální rozložení a odvozená rozložení
I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět
Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
Měření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic
Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je