ÚVOD DO TEORIE ODHADU. Martina Litschmannová

ÚVOD DO TEORIE ODHADU Martina Litschmannová

Obsah lekce Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti (Chí-kvadrát (Pearsonovo), Studentovo, Fisherovo - Snedecorovo) Úvod do teorie odhadu bodové odhady vs. intervalové odhady vlastnosti bodových odhadů intervalové odhady jednovýběrové rozdílů, resp. podílů, parametrů dvou populací

Princip statistické indukce

Výběrové charakteristiky vs. parametry populace Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty. Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé v závislosti na pořízeném výběru. Jsou to náhodné veličiny. Základní soubor (populace) Výběrový soubor (výběr) stř. hodnota E X, resp. μ (výběrový) průměr തX medián x 0,5 výběrový medián X 0,5 rozptyl D X, resp. σ výběrový rozptyl S směr. odchylka σ výběrová směr. odchylka S pravděpodobnost π rel. četnost p

Limitní věty aneb popis pravděpodobnostních modelů pro případ rostoucího počtu realizací náhodného pokusu

Slabý zákon velkých čísel Mějme nekonečný náhodný výběr X 1, X, z rozdělení se střední hodnotou μ X a konečným rozptylem, kde X 1, X, jsou nekorelované náhodné veličiny. Potom platí, že výběrový průměr തX n vypočítaný z prvních n pozorování se pro n blíží ke střední hodnotě μ X, což zapisujeme lim P തX n μ X > ε = 0 pro každé ε > 0. n Zjednodušeně: průměr se s rostoucím rozsahem výběru blíží střední hodnotě nebo relativní četnost se s rostoucím rozsahem výběru blíží pravděpodobnosti

Centrální limitní věta Jsou-li X i nezávislé náhodné veličiny se stejnou střední hodnotou μ X a se stejným konečným rozptylem, σ X pak výběrový průměr má při dostatečně velkém počtu pozorování přibližně normální rozdělení, ať už X i pocházejí z libovolného rozdělení. Centrální limitní větu zapisujeme തX~N μ X, σ X n nebo തX μ X σ X n~n 0,1. Předpoklady CLV: X i nezávislé náhodné veličiny, E X 1 = E X = = E X n = μ X, D X 1 = D X = = D X n = σ X ; σ X <, n (v praxi: n > 30, výběr neobsahuje odlehlé pozorování).

Centrální limitní věta Vlastnosti výběrového průměru തX~N μ X, σ X n f(x) 1, 1 0,8 0,6 0,4 0, n=1 n=5 n=10 n=30 0 0 0 x Vliv rozsahu výběru na graf hustoty pravděpodobnosti výběrového průměru

1 Doba přežití jistého typu pacientů má exponenciální rozdělení se střední hodnotou roky. Určete pravděpodobnost, že a) doba přežití pacienta bude vyšší než 7 měsíců, Řešení: X doba přežití pacienta (měs.) X~Exp λ = 1 4 P X > 7 = 1 F 7 = e 7 4 0,35

1 Doba přežití jistého typu pacientů má exponenciální rozdělení se střední hodnotou roky. Určete pravděpodobnost, že b) průměrná doba přežití 150 pacientů bude vyšší než 7 měsíců. Řešení: തX 150 průměrná doba přežití 150 pacientů (měs.) X i doba přežití pacienta (měs.), E X i = 1 λ = 4, D X i = 1 λ = 576 തX 150 ~N μ = E X i, σ = D X i 150 തX 150 ~N μ = 4, σ = 3,84 P തX 150 > 7 = 1 F 7 = 1 Φ 7 4 3,84 = 1 Φ 1,53 = 0,063

Doba přežití jistého typu pacientů má střední hodnotu roky a směrodatnou odchylku roky. Určete pravděpodobnost, že a) doba přežití pacienta bude vyšší než 7 měsíců, Řešení: X doba přežití pacienta (měs.) X~? Nelze určit, protože neznáme rozdělení doby přežití pacienta.

Doba přežití jistého typu pacientů má střední hodnotu roky a směrodatnou odchylku roky. Určete pravděpodobnost, že b) průměrná doba přežití 150 pacientů bude vyšší než 7 měsíců. Řešení: തX 150 průměrná doba přežití 150 pacientů (měs.) X i doba přežití pacienta (měs.), E X i = 4, D X i = 576 തX 150 ~N μ = E X i, σ = D X i 150 തX 150 ~N μ = 4, σ = 3,84 P തX 150 > 7 = 1 F 7 = 1 Φ 7 4 3,84 = 1 Φ 1,53 = 0,063

Důsledky centrální limitní věty rozdělení součtu NV Nechť: X i nezávislé náhodné veličiny, E X 1 = E X = = E X n = μ X, D X 1 = D X = = D X n = σ X ; σ X <, n (v praxi: n > 30, výběr neobsahuje odlehlé pozorování), pak σ n i=1 X i ~N nμ X, nσ X.

Důsledky centrální limitní věty rozdělení rel. četnosti p~n π; π 1 π n nebo p π π 1 π n~n 0; 1 Relativní četnost p má pro dostatečně velké výběry přibližně normální rozdělení se střední hodnotou π a rozptylem π 1 π Výběry považujeme obvykle za dostatečně velké v případě, že n > 9 p 1 p. n. Důkaz: Nechť X i ~A π, pak 1 σ n i=1 X i = p. Dle CLV: 1 σ n i=1 n X i ~N E X i ; D X i n n, tj. p~n π; π 1 π n.

Důsledky centrální limitní věty rozdělení rozdílu průměrů Mějme náhodný výběr X 11,, X 1n1 z rozdělení se střední hodnotou μ 1 a náhodný výběr X 1,, X n z rozdělení se střední hodnotou μ. Dále nechť jsou splněny následující předpoklady: Rozsah každé z populací je dostatečně velký vzhledem k rozsahu příslušného výběru n i < 0,05N i. Platí předpoklady CLV, zejména to, že každý z výběrů pochází z normálního rozdělení nebo je dostatečně velký (za dostatečně velké obvykle považujeme výběry s rozsahem větším než 30). Pak തX 1 തX ~N μ 1 μ, σ 1 n 1 + σ n nebo തX 1 തX μ 1 μ σ 1 n1 +σ n ~N 0, 1.

Důsledky centrální limitní věty rozdělení rozdílu rel. četností Výběrový průměr തX 1 vypočítaný z prvních n 1 pozorování náhodného výběru z A π 1 udává relativní četnost jevu A a značíme ji p 1. Obdobně തX vypočítaný z prvních n pozorování náhodného výběru z A π udává relativní četnost jevu B a značíme ji p. Dále nechť: Rozsah každé z populací je dostatečně velký vzhledem k rozsahu příslušného výběru n i < 0,05N i. Výběry z obou populací jsou dostatečně velké na to, aby pro modelování rozdílu mezi relativními četnostmi mohlo být použito normální rozdělení. Výběry jsou obvykle považovány za dostatečně 9 9 velké v případě, že n 1 > n p 1 1 p >. Pak 1 p 1 p p 1 p ~N π 1 π, π 1 1 π 1 n 1 + π 1 π n nebo p 1 p π 1 π π1 1 π1 n1 + π 1 π n ~N 0, 1.

Spojitá rozdělení náhodné veličiny mající využití v metodách statistické indukce

K čemu potřebujeme znát výběrová rozdělení? Výběrová rozdělení nacházejí uplatnění při odhadech střední hodnoty a pravděpodobnosti, resp. jejich rozdílů nebo při testování hypotéz o těchto parametrech. Při odhadech rozptylu, poměru rozptylů, odhadech střední hodnoty v případě, že máme k dispozici pouze malý výběr, který nepochází z normálního rozdělení, a v dalších metodách statistické indukce nacházejí uplatnění tři důležitá spojitá rozdělení: χ - rozdělení, Studentovo rozdělení, Fisherovo Snedecorovo rozdělení.

χ - rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny Z 1, Z,, Z ν, z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina X má rozdělení χ (čteme chíkvadrát ) s ν stupni volnosti, což značíme χ ν. i = 1,, n: Z i ~ N 0; 1, pak X = σν i=1 Z i ~ χ ν Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením χ ν, její střední hodnotu a rozptyl. (Spojitá rozdělení excel)

χ - rozdělení (Pearsonovo rozdělení) X~χ ν stupně volnosti (parametr rozdělení)

χ - rozdělení (Pearsonovo rozdělení) Vlastnosti χ - rozdělení: 1. E X = ν; D X = ν. Pro ν : X~ N ν; ν. Předpokládejme, že provedeme náhodný pokus spočívající v náhodném výběru o rozsahu n z populace podléhající normálnímu rozdělení s rozptylem σ. Pro uvedený výběr určíme výběrovou směrodatnou odchylku s. Lze ukázat, že : n 1 S σ ~ χ n 1.

χ - rozdělení (Pearsonovo rozdělení) Použití χ - rozdělení: 1. Vlastnosti, že n 1 S σ χ n 1 se využívá k testování toho, zda rozptyl základního souboru s normálním rozdělením je roven σ 0, resp. k odhadování směrodatné odchylky základního souboru s norm. rozdělením.. χ - rozdělení se používá pro ověření nezávislosti kategoriálních proměnných (test nezávislosti v kontingenční tabulce). 3. Pokud testujeme, zda náhodné veličiny (naměřená data) pocházejí z určitého rozdělení, můžeme také s úspěchem použít χ - rozdělení. Tento test je znám pod názvem "test dobré shody".

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Pro ověřování kvality výroby bude testováno 0 žárovek. Jaká je pravděpodobnost, že při tomto testu bude zjištěna směrodatná odchylka životnosti vyšší než 7 měsíců? Řešení: S výběrová směrodatná odchylka P S > 7 =? Neznáme rozdělení S! X = n 1 S σ X~χ n 1 V našem případě: X = 0 1 S = 19 6 36 S ~χ 19 ALE! P S > 7 = P X > 19 36 7 = P X > 5,86 = 0,134 3

Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a V. Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má χ rozdělení s ν stupni volnosti. Potom náhodná veličina T, T = Z, V ν má Studentovo t rozdělení s ν stupni volnosti, což značíme T ~t ν. Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením t ν, její střední hodnotu a rozptyl. (Spojitá rozdělení excel)

Studentovo (t) rozdělení X~t ν stupně volnosti (parametr rozdělení)

Studentovo (t) rozdělení Vlastnosti Studentova rozdělení: 1. E X = 0; D X = ν ν pro ν >. Pro ν : X~N 0; 1. Pokud náhodné veličiny X 1, X,, X n mají normální rozdělení N μ, σ a jsou navzájem nezávislé, lze ukázat, že ത X μ S n ~ t n 1. 3. Mějme dva výběry z normálního rozdělení se stejným rozptylem. Pak തX 1 തX μ 1 μ S 1 n 1 1 +S n 1 n 1 n n 1 +n n 1 +n ~ t n1 +n. 4. Mějme dva výběry z normálního rozdělení s různými rozptyly. Pak തX 1 തX μ 1 μ S 1 n1 +S n ~ t ν, kde ν = S 1 n1 S 1 n1 +S n 1 n1+1 + S n. 1 n+1

Studentovo (t) rozdělení Použití Studentova rozdělení: 1. modelování založené na analýze malých výběrů n < 30,. testování hypotéz o střední hodnotě, pokud je rozptyl základního souboru neznámý a výběr pochází z normálního rozdělení, 3. testování hypotéz o shodě středních hodnot, 4. analýza výsledků regresní analýzy.

4 Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin. Zároveň předpokládají, že směrodatná odchylka životnosti žárovek je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

4 Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin. Zároveň předpokládají, že směrodatná odchylka životnosti žárovek je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: P x 0,05 < X < x 0,975 = 0,95 Důkaz: P x 0,05 < X < x 0,975 = F x 0,975 F x 0,05 = 0,975 0,05 = 0,95

4 Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin. Zároveň předpokládají, že směrodatná odchylka životnosti žárovek je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: തX n průměrná životnost n žárovek (h), μ X střední životnost žárovek (h) P P P P തX n ~N μ = μ X, σ = σ X n ത X n μ X σ X z 0,05 < ത X n μ X σ X n < z 0,975 = 0,95 n ~N(μ = 0, σ = 1) തX n + z 0,05 σ X n < μ X < തX n + z 0,975 σ X n = 0,95 തX n z 0,05 σ X > μ n X > തX n z 0,975 σ X < μ n X < തX n z 0,975 σ X n = 0,95 തX n z 0,05 σ X n = 0,95 ത X n μ X σ X n~n(μ = 0, σ = 1)

4 Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin. Zároveň předpokládají, že směrodatná odchylka životnosti žárovek je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: തX n průměrná životnost n žárovek (h), μ X střední životnost žárovek (h) P P P തX n ~N μ = μ X, σ = σ X n ത X n μ X σ X z 0,05 < ത X n μ X σ X n < z 0,975 = 0,95 തX n z 0,975 σ X n < μ X < തX n z 0,975 σ X n < μ X < n ~N(μ = 0, σ = 1) തX n z 0,05 σ X n = 0,95 തX n +z 0,975 σ X n = 0,95 ത X n μ X σ X n~n(μ = 0, σ = 1)

4 Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin. Zároveň předpokládají, že směrodatná odchylka životnosti žárovek je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: തX n průměrná životnost n žárovek (h), μ X střední životnost žárovek (h) P P തX n ~N μ = μ X, σ = σ X n ത X n μ X σ X z 0,05 < ത X n μ X σ X n < z 0,975 = 0,95 തX n z 0,975 σ X n < μ X < n ~N(μ = 0, σ = 1) തX n +z 0,975 σ X n = 0,95 P 950 1,96 100 50 < μ X < 950 + 1,96 100 50 = 0,95 ത X n μ X σ X n~n(μ = 0, σ = 1)

4 Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin. Zároveň předpokládají, že směrodatná odchylka životnosti žárovek je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: തX n průměrná životnost n žárovek (h), μ X střední životnost žárovek (h) P തX n ~N μ = μ X, σ = σ X n ത X n μ X σ X z 0,05 < ത X n μ X σ X n < z 0,975 = 0,95 n ~N(μ = 0, σ = 1) P തX n z 0,975 σ X < μ n X < തX n +z 0,975 σ X = 0,95 n P 9 < μ X < 978 = 0,95 ത X n μ X σ X n~n(μ = 0, σ = 1)

Fisherovo - Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením χ. První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina V F = m W n Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme F ~ F m,n. Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením F m,n, její střední hodnotu a rozptyl. (Spojitá rozdělení excel)

Fisherovo - Snedecorovo (F) rozdělení X~F m,n stupně volnosti pro jmenovatele (parametr rozdělení) stupně volnosti pro čitatele (parametr rozdělení)

Fisherovo - Snedecorovo (F) rozdělení Vlastnosti Fisherova-Snedecorova rozdělení: 1. Mějme dva výběry z normálního rozdělení (X 1i ~N μ 1 ; σ 1, X j ~N μ ; σ ). S 1 a S jsou příslušné výběrové rozptyly. Pak S 1 Τ σ 1 Τ S Τσ ~F n1 1,n 1.

Fisherovo - Snedecorovo (F) rozdělení Použití Fisherova-Snedecorova rozdělení: 1. K testu o shodě rozptylů dvou základních souborů,. k testům o shodě středních hodnot více než dvou základních souborů, v tzv. analýze rozptylu, 3. k testům v regresní analýze.

5 Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 0 žárovek z linky 1 a 30 žárovek z linky. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky? Řešení: S 1 výběrový rozptyl na lince 1, S výběrový rozptyl na lince S 1 Τ σ 1 Τ S Τσ ~F n1 1,n 1 σ 1 = σ S 1 ΤS ~F n1 1,n 1 P S 1 S > = 1 F = 0,045 (V R: 1-pf(,19,9))

Úvod do teorie odhadu

Lze určit střední hodnotu životnosti el. součástek? Lze určit účinnost léku? Lze určit, který výrobce vyrábí kvalitněji? Neznáme-li rozdělení náhodné veličiny X, pak parametry náhodné veličiny X nelze většinou přesně určit, lze je jen odhadnout.

Jak odhadnout parametry populace? Bodový odhad - parametr základního souboru aproximujeme jediným číslem Intervalový odhad parametr populace aproximujeme intervalem, v němž s velkou pravděpodobností příslušný populační parametr leží.

Bodový odhad Mějme náhodný výběr X 1, X,, X n z určitého rozdělení, které závisí na neznámém parametru θ. Odhadem T parametru θ je pak výběrová charakteristika T X 1, X,, X n, která nabývá hodnot blízkých neznámému parametru θ. Vybrané populační parametry a jejich bodové odhady: konstanty obecně značíme θ Základní soubor (populace) Výběrový soubor (výběr) stř. hodnota E X, resp. μ (výběrový) průměr തX medián x 0,5 výběrový medián X 0,5 rozptyl D X, resp. σ výběrový rozptyl S směr. odchylka σ výběrová směr. odchylka S pravděpodobnost π rel. četnost p náhodné veličiny obecně značíme T X

Interval spolehlivosti vs. intervalový odhad Interval spolehlivosti (konfidenční interval) pro parametr θ se spolehlivostí 1 α, kde α 0; 1, je taková dvojice statistik T D, T H, že Intervalový odhad t D, t H P T D θ T H = 1 α. je jednou z realizací intervalu spolehlivosti. V čem spočívá výhoda intervalových odhadů vůči bodovým odhadům? Přinášejí informaci o nejistotě (nepřesnosti) odhadu.

Co je co v terminologii intervalových odhadů? P T D θ T H = 1 α hledaný parametr (konstanta, kterou nejsme schopni přesně určit) spolehlivost odhadu, tj. pravděpodobnost s níž hledaný parametr θ leží v intervalu T D ; T H meze intervalu spolehlivosti (náhodné veličiny)

1 5 9 13 17 1 5 9 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 odhad Co to znamená, že spolehlivost odhadu je 1-α? 108 106 104 10 100 98 96 94 9 realizace Simulace 100 intervalových odhadů střední hodnoty (spolehlivost 0,95) získaných na základě opakovaných výběrů o rozsahu 30 z populace se střední hodnotou 100. 6 intervalů ze 100 neobsahuje skutečnou střední hodnou.

Jaké máme požadavky na interval spolehlivosti? P T D θ T H = 1 α hladina významnosti Co největší spolehlivost odhadu. Co nejmenší šířka intervalu spolehlivosti. (S rostoucí šířkou intervalového odhadu klesá významnost získané informace.) Závěr: S rostoucí spolehlivostí se zvětšuje šířka intervalového odhadu a tím klesá významnost takto získané informace. Nutnost kompromisu α = 05, resp. 0,01 nebo 0,10 S rostoucím rozsahem výběru se šířka intervalového odhadu snižuje.

Jaké jsou typy intervalů spolehlivosti? oboustranné P θ < T D = P θ > T H = α Tyto dvě podmínky zaručují, že P T D θ T H = 1 α. jednostranné (odhadujeme-li například délku života nějakého zařízení, je pro nás důležitá pouze dolní mez) levostranné: P θ T D = 1 α pravostranné : P θ T H = 1 α

Jak najít intervalový odhad parametru θ? Obecně: 1) Zvolíme vhodnou výběrovou charakteristiku T X, jejíž rozdělení známe. (Nechť x p jsou p- kvantily spojité náhodné veličiny T X.) ) P xα T X x 1 α P T X x 1 α = 1 α, P T X x α = 1 α. = 1 α Proč to tak je? 1 α = 1 α α = F x 1 α F xα = P xα T X x 1 α 1 α = 1 F x α = P T X x α 1 α = F x 1 α = P T X < x 1 α = P T X x 1 α

Vybrané intervalové odhady parametrů rozdělení náhodné veličiny

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením a) známe-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a známým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr x. ҧ Dle CLV: തX N μ; σ Označme T X n = ത X μ σ, tj. ത X μ σ n. Oboustranný interval spolehlivosti P P xα zα T X ത X μ σ P തX σ n z 1 α x 1 α n z 1 α = 1 α μ തX + σ n z 1 α n N 0; 1 = 1 α, kde z p jsou p-kvantily N 0; 1 = 1 α

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením a) známe-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a známým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr x. ҧ Dle CLV: തX N μ; σ Označme T X n = ത X μ σ, tj. ത X μ σ n. Levostranný interval spolehlivosti P T X x 1 α = 1 α P ത X μ σ n z 1 α = 1 α P μ തX σ n z 1 α = 1 α n N 0; 1

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením a) známe-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a známým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr x. ҧ Dle CLV: തX N μ; σ Označme T X n = ത X μ σ, tj. ത X μ σ n. Pravostranný interval spolehlivosti P x α T X P z α ത X μ σ n = 1 α = 1 α P μ തX + σ n z 1 α = 1 α n N 0; 1

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením a) známe-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a známým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n n < 0,05N a průměr x. ҧ Intervalový odhad střední hodnoty μ se spolehlivostí 1 α při známém rozptylu σ Oboustranný xҧ σ n z 1 α x ҧ + ; σ n z 1 α Levostranný Pravostranný xҧ σ n z 1 α x ҧ + σ n z 1 α kde z p jsou p-kvantily N(0; 1)

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením a) známe-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a známým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n n < 0,05N a průměr x. ҧ (Vzorce a tabulky)

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením b) neznáme-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a neznámým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n, průměr xҧ a výběrovou směrodatnou odchylku s. Dle vlastností Studentova rozdělení: Označme T X = ത X μ S തX μ S n ~ t n 1 n a dále můžeme pokračovat obdobně jako v předchozím případě.

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením b) neznáme-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a neznámým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n n < 0,05N, průměr xҧ a výběrovou směrodatnou odchylku s. Intervalový odhad střední hodnoty μ se spolehlivostí 1 α při neznámém rozptylu σ Oboustranný xҧ s n t 1 α x ҧ + ; s n t 1 α Levostranný Pravostranný xҧ s n t 1 α x ҧ + s n t 1 α kde t p jsou p-kvantily Studentova rozdělení s n 1 stupni volnosti

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením b) neznáme-li rozptyl σ Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a neznámým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n n < 0,05N, průměr xҧ a výběrovou směrodatnou odchylku s. (Vzorce a tabulky)

Intervalový odhad střední hodnoty - obecně V obecném případě, kdy neznáme typ rozdělení, používáme tzv. robustní (neparametrické) postupy. Robustní postupy hodnocení náhodné veličiny typicky používáme v případech, kdy výběrový soubor obsahuje odlehlá pozorování, která nemohou být opravena a není vhodné je vyloučit, výběrový soubor nepochází z normálního rozdělení, výběrový soubor má velké rozptýlení dat. Výklad robustních přístupů není součástí základního kurzu statistiky. Zájemci najdou základní informace v kapitole 4.4 (Úvod do statistiky).

Intervalový odhad rozptylu (sm. odchylky) normálního rozdělení Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a neznámým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a výběrovou směrodatnou odchylku s. Dle vlastností Pearsonova (χ ) rozdělení: n 1 S σ ~ χ n 1 Označme T X = n 1 S. Jednoduše lze ukázat, že σ

Intervalový odhad rozptylu (sm. odchylky) normálního rozdělení Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a neznámým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n n < 0,05N a výběrovou směr. odchylku s. Intervalový odhad rozptylu σ se spolehlivostí 1 α při neznámé střední hodnotě μ Oboustranný n 1 s χ 1 α ; n 1 s χα Levostranný Pravostranný n 1 S χ 1 α n 1 s χ α kde χ p jsou p-kvantily Chí kvadrát rozdělení s n 1 stupni volnosti

Intervalový odhad rozptylu (sm. odchylky) normálního rozdělení Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou μ a neznámým rozptylem σ. Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n n < 0,05N a výběrovou směr. odchylku s. (Vzorce a tabulky)

Intervalový odhad parametru binom. rozdělení (máme-li k dispozici dostatečně velký výběr) Mějme k dispozici výběrový soubor, jehož rozsah je dostatečně velký n > 30, je menší než 5% rozsahu základního souboru n < 0,05N, splňuje podmínku n > 9 p 1 p. Dle CLV: p ~ N π; π 1 π n, tj. p π π 1 π n ~ N 0; 1 Označme T X = p π π 1 π n. Lze ukázat, že

Intervalový odhad parametru binom. rozdělení (máme-li k dispozici dostatečně velký výběr) Intervalový odhad relativní četnosti π se spolehlivostí 1 α n > 30, n N < 0,05, n > 9 p 1 p standardní (Waldův) odhad Oboustranný p z 1 α p 1 p n ; p +z 1 α p 1 p n Levostranný p z 1 α p 1 p Pravostranný p +z 1 α p 1 p n n kde z p jsou p-kvantily normovaného normálního rozdělení

Intervalový odhad parametru binom. rozdělení (máme-li k dispozici dostatečně velký výběr) (Vzorce a tabulky)

6 Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 30 z 0 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou. Řešení:

6 Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 30 z 0 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou. Řešení: π podíl konzerv s prošlou záruční lhůtou mezi všemi 0 000 konzervami Předpoklady: n > 30 n < 0,05N n > 9 p(1 p)

6 Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 30 z 0 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou. Řešení: π podíl konzerv s prošlou záruční lhůtou mezi všemi 0 000 konzervami Předpoklady: n > 30 (OK, n = 30) n < 0,05N (OK, n = 30, 0,05N = 0,05 0 000 = 1 000) n > 9 p(1 p) (OK, n = 30, p = 59 30 0,184 9 p(1 p) 59,8) Výpočet: P p z 0,975 p 1 p n < π < p + z 0,975 p 1 p n = 0,95

6 Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 30 z 0 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou. Řešení: π podíl konzerv s prošlou záruční lhůtou mezi všemi 0 000 konzervami Předpoklady: n > 30 (OK, n = 30) n < 0,05N (OK, n = 30, 0,05N = 0,05 0 000 = 1 000) n > 9 p(1 p) (OK, n = 30, p = 59 30 0,184 9 p(1 p) 59,8) Výpočet: P 59 30 1,96 59 30 1 59 30 30 < π < 59 30 + 1,96 59 30 1 59 30 30 = 0,95

6 Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 30 z 0 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou. Řešení: π podíl konzerv s prošlou záruční lhůtou mezi všemi 0 000 konzervami Předpoklady: n > 30 (OK, n = 30) n < 0,05N (OK, n = 30, 0,05N = 0,05 0 000 = 1 000) n > 9 p(1 p) (OK, n = 30, p = 59 30 0,184 9 p(1 p) 59,8) Výpočet: P 0,14 < π < 0,7 = 0,95

Intervalový odhad parametru binom. rozdělení (máme-li k dispozici dostatečně velký výběr) POZOR! Relativní četnost π je z intervalu 0; 1. Je tedy zřejmé, že dolní mez intervalových odhadů relativní četnosti nemůže klesnout pod 0 a horní mez těchto odhadů nemůže být větší než 1! Bylo ukázáno, že standardní (Waldův) odhad není optimální, existuje spousta vhodnějších alternativ (např. Wilsonův odhad, Clopperův-Pearsonův odhad, Agresti-Coullův odhad ).

Odhad rozsahu výběru v případě, že odhadujeme střední hodnotu nebo parametr binom. rozdělení chyba odhadu polovina šířky oboustranného intervalu spolehlivosti Požadovanou přesnost výpočtu vyjadřujeme pomocí tzv. přípustné chyby odhadu max, tj. hodnoty o kterou jsme ochotni se zmýlit oproti skutečné hodnotě odhadovaného parametru při dané spolehlivosti odhadu (hladině významnosti).

Odhad rozsahu výběru v případě, že odhadujeme střední hodnotu nebo parametr binom. rozdělení Oboustranný intervalový odhad střední hodnoty pro případ, že neznáme rozptyl σ je xҧ σ z n 1 α x ҧ + ; σ z n 1 α. Přípustná chyba odhadu je = σ n z 1 α. Požadujeme-li, aby přípustná chyba odhadu max, pak: σ n z 1 α n max σ max z 1 α

Odhad rozsahu výběru v případě, že odhadujeme střední hodnotu nebo parametr binom. rozdělení Odhad rozsahu výběru potřebného pro nalezení interval. odhadu se spolehlivostí 1 α a maximální přípustnou chybou max Požadovaný Odhadovaný populační parametr rozsah výběru Střední hodnota μ (známe σ) Střední hodnota μ (neznáme σ) n n σ max z 1 α s 1 max t 1 α Parametr binom. rozdělení π n n z 1 α z 1 α p 1 1 p 1 max 1 4 max

7 Výběrovým šetřením bychom chtěli odhadnout průměrnou mzdu pracovníků určitého výrobního odvětví. Z vyčerpávajícího šetření, které probíhalo před několika měsíci, víme, že směrodatná odchylka mezd byla 750,- Kč. Odhad chceme provést s 95% spolehlivostí a jsme ochotni připustit maximální chybu ve výši 50,-Kč. Jak velký musíme provést výběr, abychom zajistili požadovanou přesnost a spolehlivost?

7 Výběrovým šetřením bychom chtěli odhadnout průměrnou mzdu pracovníků určitého výrobního odvětví. Z vyčerpávajícího šetření, které probíhalo před několika měsíci, víme, že směrodatná odchylka mezd byla 750,- Kč. Odhad chceme provést s 95% spolehlivostí a jsme ochotni připustit maximální chybu ve výši 50,-Kč. Jak velký musíme provést výběr, abychom zajistili požadovanou přesnost a spolehlivost? Odhad rozsahu výběru potřebného pro nalezení interval. odhadu se spolehlivostí 1 α a maximální přípustnou chybou max Řešení: n σ max z 1 α Odhadovaný populační parametr Střední hodnota μ (známe σ) Střední hodnota μ (neznáme σ) Požadovaný rozsah výběru σ n z α 1 max n s 1 max t 1 α Parametr binom. rozdělení π n n z 1 α z 1 α p 1 1 p 1 max 1 4 max

7 Výběrovým šetřením bychom chtěli odhadnout průměrnou mzdu pracovníků určitého výrobního odvětví. Z vyčerpávajícího šetření, které probíhalo před několika měsíci, víme, že směrodatná odchylka mezd byla 750,- Kč. Odhad chceme provést s 95% spolehlivostí a jsme ochotni připustit maximální chybu ve výši 50,- Kč. Jak velký musíme provést výběr, abychom zajistili požadovanou přesnost a spolehlivost? Řešení: n σ max z 1 α n 750 50 1,96 n 864,4

Intervalový odhad poměru rozptylů dvou náhodných veličin s normálním rozdělením Mějme dva výběry z normálního rozdělení, tj. i = 1,,, n 1, kde n 1 je rozsah prvního výběru: X 1i ~N μ 1 ; σ 1, j = 1,,, n, kde n je rozsah prvního výběru: X j ~N μ ; σ. Nechť S 1 a S jsou výběrové rozptyly daných výběrů. Dle vlastností Fisherova-Snedecorova rozdělení: Označme T X = S 1 Τ σ 1 Τ Τσ, pak je zřejmé, že S S 1 Τ σ 1 Τ S Τσ ~F n1 1,n 1

Intervalový odhad poměru rozptylů dvou náhodných veličin s normálním rozdělením Intervalový odhad poměru rozptylů σ 1 σ se spolehlivostí 1 α Oboustranný Levostranný Pravostranný 1 f 1 α S 1 S ; 1 S 1 fα S 1 S 1 f 1 α S 1 S 1 f α S kde f p jsou p-kvantily Fisherova Snedecorova rozdělení s n 1 1 stupni volnosti v čitateli a n 1 stupni volnosti ve jmenovateli (Vzorce a tabulky)

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením Intervalový odhad rozdílu středních hodnot dvou populací s normálním rozdělením, z nichž byly pořízeny náhodné výběry, lze provádět za trojího předpokladu. Známe rozptyly σ 1 a σ obou populací. Neznáme rozptyly obou populací, ale lze předpokládat, že jsou shodné. Neznáme rozptyly obou populací a nelze předpokládat, že jsou shodné.

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením a) známe rozptyly σ 1 a σ obou populací Mějme dvě populace s normálním rozdělením, jejichž rozptyly σ 1 a σ známe. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n 1 a n n 1 < 0,05N, n < 0,05N, a určili jejich průměry xҧ 1 a xҧ. Oboustranný Levostranný Pravostranný Intervalový odhad rozdílu středních hodnot μ 1 μ se spolehlivostí 1 α (známe σ 1, σ ) xҧ 1 xҧ z 1 α xҧ 1 xҧ 1 σ 1 + σ ; n 1 n xҧ 1 xҧ σ xҧ z 1 1 α σ xҧ + z 1 1 α + σ n 1 + z 1 α n + σ n 1 kde z p jsou p-kvantily normovaného normálního rozdělení n σ 1 n 1 + σ n (Vzorce a tabulky)

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením b) neznáme jejich rozptyly σ 1 a σ, ale víme, že σ 1 = σ Mějme dvě populace s normálním rozdělením, jejichž rozptyly neznáme, ale víme, že jsou shodné. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n 1 a n (n 1 < Oboustranný Levostranný Intervalový odhad rozdílu středních hodnot μ 1 μ se spolehlivostí 1 α (neznáme σ 1, σ, ale víme, že σ 1 = σ ) xҧ 1 xҧ t 1 α n 1 1 s 1 + n 1 s n 1 +n 1 n 1 + 1 n ; xҧ 1 xҧ + t 1 α n xҧ 1 xҧ t 1 1 s 1 + n 1 s 1 α n 1 +n n 1 1 s 1 + n 1 s 1 n 1 +n n 1 + 1 n 1 n 1 + 1 n Pravostranný n xҧ 1 xҧ + t 1 1 s 1 + n 1 s 1 α n 1 +n 1 n 1 + 1 n kde t p jsou p-kvantily Studentova rozdělení s n 1 + n stupni volnosti (Vzorce a tabulky)

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením c) neznáme jejich rozptyly σ 1 a σ, a nelze předpokládat, že σ 1 = σ Mějme dvě populace s normálním rozdělením, jejichž rozptyly neznáme a nelze předpokládat, že jsou shodné. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n 1 a n n 1 < 0,05N, n < 0,05N, a určili jejich průměry xҧ 1 a xҧ a výběrové směrodatné odchylky s 1 a s. Oboustranný Levostranný Pravostranný Intervalový odhad rozdílu středních hodnot μ 1 μ se spolehlivostí 1 α (neznáme σ 1, σ, a nelze předpokládat, že σ 1 = σ ) xҧ 1 xҧ t 1 α xҧ 1 xҧ 1 s 1 + s ; n 1 n xҧ 1 xҧ s xҧ t 1 1 α s xҧ + t 1 1 α + s n 1 + t 1 α n + S n 1 n s 1 n 1 + s n kde t p jsou p-kvantily Studentova rozdělení s S 1 n1 S 1 n1 +S n 1 n1+1 + S n stupni volnosti 1 n+1 (Vzorce a tabulky)

Intervalový odhad pro rozdíl parametrů binom. rozdělení dvou náhodných veličin Mějme dvě populace. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n 1 a n. Výběr z první populace obsahoval x 1 prvků se sledovanou vlastností, výběr z druhé populace obsahoval x prvků se sledovanou vlastností. Výběrové relativní četnosti p 1, p jsme pak určili dle vztahů p 1 = x 1, p n = x. 1 n Mají-li výběrové soubory rozsahy, které jsou dostatečně velké n 1 > 30, n > 30, jsou menší než 5% rozsahu základního souboru n 1 < 0,05N, n < 0,05N, splňují podmínky n 1 > pak 9 p 1 1 p 1, n > 9 p 1 p,

Intervalový odhad pro rozdíl parametrů binom. rozdělení dvou náhodných veličin Mějme dvě populace. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n 1 a n n 1 < 0,05N, n < 0,05N. Výběr z první populace obsahoval x 1 prvků se sledovanou vlastností, výběr z druhé populace obsahoval x prvků se sledovanou vlastností. Výběrové relativní četnosti p 1, p jsme pak určili dle vztahů p 1 = x 1, p n = x. 1 n Intervalový odhad rozdílu relativních četností π 1 π se spolehlivostí 1 α 9 i 1, : n i > 30, n i < 0,05N i, n i > p i 1 p i Oboustranný p 1 p z 1 α p 1 p 1 n 1 + 1 n ; p 1 p + z 1 α Levostranný p 1 p z 1 α p 1 p Pravostranný p 1 p + z 1 α p 1 p 1 n 1 + 1 n 1 n 1 + 1 n p 1 p 1 n 1 + 1 n kde z p jsou p-kvantily normovaného normálního rozdělení (Vzorce a tabulky)

DĚKUJI ZA POZORNOST!