FITOVÁNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI PRO APLIKACE

Rozměr: px
Začít zobrazení ze stránky:

Download "FITOVÁNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI PRO APLIKACE"

Transkript

1 VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA STROJNÍHO INŽENÝRSTVÍ ÚSTAV MATEMATIKY FACULTY OF MECHANICAL ENGINEERING DEPARTMENT OF MATHEMATICS FITOVÁNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI PRO APLIKACE FITTING OF PROBABILITY DISTRIBUTIONS FOR APPLICATIONS DIPLOMOVÁ PRÁCE MASTER S THESIS AUTOR PRÁCE AUTHOR VEDOUCÍ PRÁCE SUPERVISOR Bc LENKA PAVLÍČKOVÁ doc RNDr ZDENĚK KARPÍŠEK, CSc BRNO 01

2

3 Vysoké učeí techické v Brě, Fakulta strojího ižeýrství Ústav matematiky Akademický rok: 011/01 ZADÁNÍ DIPLOMOVÉ PRÁCE studet(ka): Bc Leka Pavlíčková který/která studuje v magisterském avazujícím studijím programu obor: Matematické ižeýrství (3901T01) Ředitel ústavu Vám v souladu se zákoem č111/1998 o vysokých školách a se Studijím a zkušebím řádem VUT v Brě určuje ásledující téma diplomové práce: v aglickém jazyce: Fitováí rozděleí pravděpodobosti pro aplikace Fittig of Probability Distributios for Applicatios Stručá charakteristika problematiky úkolu: Studium moderích efektivích metod odhadů parametrů a rozděleí pravděpodobosti pomocí bootstrapu z pozorovaých hodot áhodých veliči, áhodých vektorů a kategoriálích veliči s ohledem a aspekty jejich aplikací v techických a dalších oborech Cíle diplomové práce: Popis, zhodoceí a rozvoj současých efektivích statistických metod odhadů parametrů a rozděleí pravděpodobosti pomocí bootstrapu respektujících omezeí a eurčitost dat, jejich realizace a PC a aplikace a kokrétích datových souborech

4 Sezam odboré literatury: 1 Motgomery, D C, Reger, G: Probability ad Statistics New York: Joh Wiley & Sos, 1996 Aděl, J: Statistické metody Praha: MATFYZPRESS, Aděl, J: Základy matematické statistiky Praha: MATFYZPRESS, 00 4 Silverma, B W: Desity Estimatio for Statistics ad Data Aalysis Lodo: Chapma ad Hall, Vajda, I: Theory of Statistical Iferece ad Iformatio Lodo: Kluwer Academic Press, Scott, DW: Multivariate Desity Estimatio Theory, Practice ad Visualizatio New York: Wiley, Čláky a materiály z odborých časopisů, sboríků koferecí a Iteretu dle pokyů vedoucího diplomové práce Vedoucí diplomové práce: doc RNDr Zdeěk Karpíšek, CSc Termí odevzdáí diplomové práce je staove časovým pláem akademického roku 011/01 V Brě, de LS prof RNDr Josef Šlapal, CSc Ředitel ústavu prof RNDr Miroslav Doupovec, CSc Děka fakulty

5 ABSTRAKT Diplomová práce popisuje metodu bootstrap a její použití pro tvorbu kofidečích itervalů, při testováí statistických hypotéz a v regresí aalýze Představujeme kofidečí iterval pro idividuálí hodotu Dále se zaobíráme metodou odhadu diskrétího rozděleí pravděpodobosti kategoriálí veličiy pomocí gradietího a přímkového odhadu KLÍČOVÁ SLOVA bootstrap, odhad parametru, kofidečí iterval, test statistické hypotézy, regresí aalýza, idividuálí hodota, f-divergece, kvaziorma, diskrétí rozděleí pravděpodobosti, gradietí odhad, přímkový odhad ABSTRACT The diploma thesis describes the bootstrap method ad its applicatios i the cofidece itervals geeratio, i the testig of statistical hypotheses ad i the regressio aalysis We preset the cofidece iterval for idividual value Further the method of discrete probability estimatio of the categorical quatity is preseted, makig use the gradiet ad the lie estimate KEYWORDS bootstrap, parameter estimate, cofidece iterval, statistical hypothesis testig, idividual value, f-divergece, quasi-orm, discrete probability distributio, gradiet estimate, lie estimate PAVLÍČKOVÁ, Leka Fitováí rozděleí pravděpodobosti pro aplikace: diplomová práce Bro: Vysoké učeí techické v Brě, Fakulta strojího ižeýrství, Ústav matematiky, 01 7 s Vedoucí práce byl doc RNDr Zdeěk Karpíšek, CSc

6 Prohlašuji, že svou diplomovou práci a téma Fitováí rozděleí pravděpodobosti pro aplikace jsem vypracovala samostatě pod vedeím vedoucího diplomové práce a s použitím odboré literatury a dalších iformačích zdrojů, které jsou všechy citováy v práci a uvedey v sezamu literatury a koci práce

7 Děkuji vedoucímu mé diplomové práce pau doc RNDr Zdeňku Karpíškovi CSc za pomoc a ceé rady, které mi pomohly při práci a daém tématu

8 OBSAH 1 Úvod 9 Bootstrap 10 3 Kofidečí itervaly Itervalové odhady parametrů ormálího rozděleí 15 3 Kofidečí itervaly a metoda bootstrap Praktická aplikace 9 4 Testováí statistických hypotéz 31 5 Regresí aalýza Lieárí regresí model 35 5 Základí regresí modely Mohoásobá lieárí regrese Testováí hypotéz Bootstrap regresí model Bootstrap metoda a regresí aalýza v praxi 4 6 Kofidečí iterval pro idividuálí hodotu Kofidečí iterval pomocí regresí aalýzy 49 6 Kofidečí iterval pomocí toleračích mezí 51 7 Pesimistické odhady rozděleí pravděpodobosti kategoriálí veličiy Gradietí odhad 54 7 Přímkový odhad Ukázka aplikace 58 8 Závěr 69 Literatura 70

9 1 ÚVOD Výraz bootstrap v doslovém překladu zameá poutko u bot Název pochází z legedy o baroovi Müchhauseovi od autora Ericha Raspeho, která vypráví, že se jedou baro pomalu topil v blátě a zachráil se zatažeím za šňůrky u svých bot, což by žádý z tooucích ke své záchraě eudělal Základí pricipy metody bootstrap poprvé popsal Brad Efro roku 1979 v čláku Bootstrap Methods: Aother look at the jackkife Čláek vzbudil velký ohlas a metoda dokázala, že svou přesostí předčí i klasickou aproximaci rozděleím Metoda bootstrap přiesla možost odhadout přesost libovolého odhadu libovolého parametru Pricip metody spočívá v jedoduché myšlece mohoásobého opakováí jedoduchého algoritmu Metoda bootstrap je použitelá pro výběry s malým rozsahem, protože eí závislá a cetrálí limití větě Diplomová práce je rozdělea do šesti celků V této diplomové práci popisujeme, jak metoda bootstrap pracuje Ukážeme si, jak můžeme s přispěím metody bootstrap zkostruovat kofidečí itervaly, uvádíme více přístupů a obohatíme to i praktickou aplikací hledáí kofidečích itervalů Předvedeme si, jak lze testovat pomocí metody bootstrap statistické hypotézy Podíváme se i a regresí aalýzu a spojeí s metodou bootstrap, kde se sezámíme i s praktickou aplikací metody bootstrap a regresí aalýzy, v této praktické části jsme více experimetovali a sažili se i ajít rozděleí pravděpodobosti, které fituje daou veličiu Popíšeme si, jak budeme přistupovat ke kostrukci kofidečího itervalu pro idividuálí hodotu a v posledí kapitole diplomové práce jsme se zabývali kategoriálí veličiou ve spojeí s metodou bootstrap Otestovali jsme pesimistický přímkový odhad ve spojeí s metodou bootstrap a reálých datech Praktické aplikace jsme prováděli v MS Excel a ve statistickém softwaru Statgraphic Ceturio 9

10 BOOTSTRAP Výsledky v této kapitole jsou podložey [8], [9], [10] Základem metody bootstrap je opakovaá realizace výběru z aměřeých dat ebo odhadutého modelu Nechť X 1, X,, X jsou ezávislé stejě rozděleé (iid) áhodé veličiy a echť F je distribučí fukce, která je blíže especifikovaá Nechť θ = θ(f ) je ezávislý parametr rozděleí pravděpodobosti áhodé veličiy X, který má být odhadut a základě realizace áhodého výběru Parametr θ může být středí hodota, variace ebo jié charakteristiky rozděleí pravděpodobosti F Pak realizujeme áhodý výběr X = (X 1, X,, X ) z áhodé veličiy X o rozsahu, echť x = (x 1, x,, x ) je realizace (soubor pozorovaých hodot) áhodého výběru X Na základě realizace áhodého výběru X vypočítáme odhad parametru θ Odhad θ ozačme θ, θ = θ(x 1, x,, x ) Nechť T = T (X 1, X,, X ) je statistika pro odhad parametru θ a R = R(X 1, X,, X ) je její vhodě stadardizovaá verze Nechť H(x) = P [R(X 1, X,, X, F ) x] vyjadřuje distribučí fukci statistiky R Výpočet rozděleí H může být komplikovaé a to i v případě zámé distribučí fukce F Pokud záme distribučí fukci F, tak lze použít metodu Mote Carlo: geerovat dlouhou sérii ezávislých áhodých výběrů z rozděleí s daou distribučí fukcí, spočítat pro každé opakováí hodotu příslušé charakteristiky, skutečé rozděleí charakteristiky aproximovat empirickým rozděleím získaým z řady uměle získaých hodot 10

11 Pokud distribučí fukci F ezáme, což je častější situace, tak H aproximujeme asymptotickým rozděleím (odvozeé a základě limitích vět teorie pravděpodobosti) Přesost aproximace při ezáme distribučí fukci F je ovlivěa a omezea počtem pozorováí Metoda bootstrap kombiuje substitučí pricip a metodu Mote Carlo Substitučí pricip Nechť F (x) je ějaký odhad distribučí fukce, ejčastěji empirická distribučí fukce založeá a áhodém výběru X 1, X,, X, tj F (x) = 1 I[X i x], i=1 kde I[A] ozačuje idikátor možiy A Při daých hodotách X 1, X,, X je F zámá fukce Nechť X * = (X * 1, X, *, X ) * je ezávislý áhodý výběr z F, tj při daých pozorováích x i jsou X i * iid áhodé veličiy a každá abývá hodot x i s pravděpodobostí p = 1 Bootstrapový výběr je soubor X * = (X * 1, X, *, X ) * Dále se původí výběr X ahradí bootstrapovým výběrem X *, ezámou distribučí fukci F ahradíme zámou distribučí fukcí F Pak dostaeme parametr θ * = θ(f ) a statistiky T * = T (X 1 *, X *,, X * ) a stadardizovaé verze statistik R * = R(X 1 *, X *,, X *, F ) Pak můžeme defiovat teoretické charakteristiky E * T * = T (x 1, x,, x ) d(f (x 1 ), F (x ),, F (x )), var * T * = [T (x 1, x,, x ) E * T * ] d(f (x 1 ), F (x ),, F (x )) 11

12 a teoretickou distribučí fukci H * (x) = P * (R(X * 1, X, *, X, * F ) x) = = P (R(X * 1, X, *, X, * F ) x X 1, X,, X ) Tyto teoretické charakteristiky a distribučí fukce jsou získaé metodou bootstrap a v praxi se využijí, pokud jsou explicitími fukcemi pozorováí X 1, X,, X Pokud bychom chtěli přesě určit bootstrapové rozděleí, tak by se provedlo všech výběrů s vraceím z populace pozorovaých hodot x 1, x,, x Toto je možé provést je pro malé Proto se a bootstrapový výběr X * a zámou distribučí fukci F ejčastěji aplikuje metoda Mote Carlo Metoda Mote Carlo Jedá se o metodu, kdy se geeruje mohokrát (B-krát) ezávislý áhodý výběr o rozsahu z rozděleí F Pravděpodobost, že vybereme prvek metodou Mote Carlo je 1 V literatuře studující statistiku se teto termí ozačuje jako výběr z původí možiy s opakováím Prvek x i z původí možiy se může ve výběru geerovaém metodou Mote Carlo objevit jedekrát, dvakrát, ale i -krát Pravděpodobost rozděleí, že prvek x i se vyskyte -krát ve výběru, je blízké Poissoovu rozděleí se středí hodotou rovou jedé Předpokládejme, že x i se v geerovaém výběru metodou Mote Carlo vyskyte i -krát Pak každá bootstrapová možia obsahuje přesě prvků, i = i=1 Podívejme se a případ, kdy budeme uvažovat jedu proměou x i Pravděpodobost výskytu x i v jedom bootstrapovém výběru je 1, tuto pravděpodobost ozačíme p Pak pravděpodobost, že x i se vyskyte i -krát, je P ( i ) =! i!( i )! p i (1 p) i Pokud máme vygeerovaé áhodé výběry, tak pro každou realizaci áhodého výběru spočítáme hodoty T * a R * a z ich se pak staoví aritmetický průměr Tak se získají bootstrapové odhady původího rozděleí a původích charakteristik Tedy bootstrapový odhad rozptylu T získáme tak, že se B-krát opakuje ezávislý áhodý výběr z F a vždy se spočte hodota statistiky T * Postupě se získají hodoty ze kterých se spočte T * 1, T *,, T * B, 1

13 var * T * = 1 B ( B T b * 1 B b=1 ) B T k * k=1 Obdobě odhademe distribučí fukci statistiky R, H * (x) = 1 B I { R ( X * B 1,b, X,b, *, X,b, * F ) x }, b=1 kde { X * 1,b, X*,b,, X*,b}, b = 1,,, B jsou ezávislé výběry z F 13

14 3 KONFIDENČNÍ INTERVALY Teoretické výsledky jsou podložey [8], [9], [10], [1] Mezi základí úlohy matematické statistiky patří úloha staoveí hodot parametrů rozděleí, ze kterého máme k dispozici áhodý výběr Nejčastěji se zabýváme dvěma druhy odhadů: bodový odhad, který je odhadem parametru pomocí statistiky (fukce áhodého výběru), jejíž hodotu pro datový soubor považujeme za hledaou hodotu ezámého parametru rozděleí (ebo jeho fukce), itervalový odhad (kofidečí iterval) je iterval, ve kterém se hodota ezámého parametru vyskytuje s požadovaou pravděpodobostí Podívejme se a hledáí itervalového odhadu Uvažujme, že θ je ezámý parametr zkoumaého rozděleí a τ(θ) je fukce parametru θ, kterou odhadujeme, pak hledáme statistiky T D a T H takové, že pro koeficiet (1 α) platí P (T D τ(θ) T H ) = 1 α a avíc vyžadujeme P (τ(θ) < T D ) = P (τ(θ) > T H ) = α Pak itervalovým odhadem fukce τ(θ) je iterval (T D, T H ) V tomto případě mluvíme o oboustraém odhadu Někdy ovšem potřebujeme je jedostraé odhady Pak dostaeme τ(θ) (T D, ), kde P (τ(θ) T D ) = 1 α a P (τ(θ) < T D ) = α ; τ(θ) (, T H ), kde P (τ(θ) T H ) = 1 α a P (τ(θ) > T H ) = α α obvykle volíme α = 0, 1; 0, 05; 0, 01 Spolehlivost odhadu je pak 1 α = 0, 9; 0, 95; 0, 99 Tedy v 90% ; 95% ; 99% je áš odhad pro parametr správý 14

15 31 Itervalové odhady parametrů ormálího rozděleí Odhad parametru μ rozděleí N(μ, σ ) při zámém rozptylu σ Použijeme statistiku X (výběrový průměr) jako jeho odhad Víme, že áhodá veličia X μ U = σ má ormovaé ormálí rozděleí N(0, 1) Pak P ( U u 1 α ) = 1 α u 1 α X μ u1 α σ Symbolem u 1 α, 0 < u 1 α < 1 ozačujeme (1 α )-kvatil ormovaého ormálího rozděleí N(0, 1) Odtud pak dostaeme, že T D = X σ u 1 α μ X + σ u 1 α = T H Jedostraé odhady jsou pak levostraý iterval μ X + σ u 1 α = T H a pravostraý iterval μ X σ u 1 α = T D Odhad parametru σ při zámé středí hodotě μ V tomto případě využijeme skutečosti, že áhodá veličia U i = X i μ σ má ormovaé ormálí rozděleí N(0, 1) Pak áhodá veličia V = ( Xi μ i=1 σ ) má rozděleí χ () Pak s = 1 i=1 (X i μ) = σ ( ) Xi μ = σ σ V i=1 15

16 a statistika V = s σ má rozděleí χ () Pro oboustraý odhad dostaeme P (v 1 V v ) = 1 α v 1 = χ α () a v = χ 1 α () Symbolem χ α () ozačujeme α-kvatil rozděleí χ () a χ 1 () ozačuje (1 α)- α kvatil rozděleí χ () Odtud odvodíme odhad pro σ χ α () s σ χ 1 α () s s χ 1 α () σ Obdobě dostaeme jedostraé odhady, levostraý iterval χ α s χ 1 α() σ, () pravostraý iterval σ s χ α() Odhad středí hodoty μ za podmíky, že rozptyl σ uvažovaého rozděleí eí zám Pro určeí itervalu spolehlivosti použijeme statistiku T = X μ, S o které víme, že má Studetovo t-rozděleí t( 1) o ( 1) stupích volosti a eboť X N(μ, σ ) Dále U = T = X μ σ S σ X μ σ χ ( 1), a Z = ( 1) S σ = ( ) X Xi χ ( 1), i=1 T = σ U Z 1 16

17 má Studetovo rozděleí t( 1) Iterval spolehlivosti určíme z podmíky Odtud P ( T t 1 α ( 1)) = 1 α t 1 α X μ t1 α S X S t 1 α μ X + S t 1 α je oboustraý iterval spolehlivosti pro parametru μ Obdobě dostaeme jedostraé itervaly, levostraý iterval μ X S t 1 α a pravostraý iterval μ X + S t 1 α, kde symbolem t 1 α ozačujeme (1 α)-kvatil uvažovaého rozděleí Odhad parametru σ při ezámé středí hodotě μ Pro určeí itervalu spolehlivosti použijeme statistiku Y = 1 ( ) X S Xi =, σ σ i=1 která má rozděleí χ ( 1) a dále vycházíme ze skutečosti, že pro statistiku S je E(S ) = σ a může tedy sloužit jako vhodý odhad parametru σ Oboustraý iterval spolehlivosti dostaeme z podmíky P (v 1 Y v ) = 1 α v 1 = χ α ( 1) a v = χ 1 α ( 1) Odtud plye pro oboustraý iterval spolehlivosti v 1 ( 1)S σ v 1 v S σ ( 1) v 1 S Jedoduchou úpravou získáme jedostraé itervaly spolehlivosti, levostraý iterval a pravostraý iterval ( 1) v S σ σ ( 1) S, v 1 kde v 1 je (χ α( 1))-kvatil a v je (χ 1 α( 1))-kvatil rozděleí χ ( 1) o 1 stupích volosti 17

18 3 Kofidečí itervaly a metoda bootstrap Určováí kofidečích itervalů metodou bootstrap je založeo a myšlece, že pokud ze základího souboru, který obsahuje hodotu θ 0 zjišťovaého parametru θ, získáme (měřeím, pokusy, ) áhodý výběr x 1,, x, pro který bude mít vypočteý parametr hodotu θ, tak teto parametr θ je od parametru θ 0 vzdále o hodotu Δθ = θ θ 0 Naopak pokud by soubor x 1,, x představoval základí soubor daého parametru θ o středí hodotě μ θ *, tak ěkterý z áhodých výběrů, vytvořeý z tohoto souboru bude mít parametr θ * vzdále od μ θ * také o Δθ Rozděleí bootstrap parametru θ * bude s jistou pravděpodobostí obsahovat také hodotu skutečého parametru θ 0 Dál si ukážeme, jak se kofidečí itervaly kostruují Předpokládejme, že jsme získali ezávislých hodot x 1,, x, ze kterých spočítáme ezámý parametr θ, θ = θ(f ), kde F je ezámé rozděleí pravděpodobosti Parametr θ může být výběrový průměr, směrodatá odchylka, hodota ějakého kvatilu, Nechť θ = θ( F ) je odhad parametru θ, dále echť se je odhad směrodaté chyby θ S rostoucím se rozděleí odhadu θ stále více přibližuje ormálímu rozděleí se středí hodotou blízkou θ a s rozptylem blízkým se Píšeme θ N(θ, se ) eboli θ θ N(0, 1) se Bootstrapový výběr získáme z možiy x 1,, x vygeerováím (výběrem s opakováím) opět prvků, x * = (x * 1,, x * ), který azveme bootstrapovým výběrem Počet všech růzých bootstrapových výběrů rozsahu je ( ) 1 Pro každý bootstrapový výběr vypočítáme příslušý parametr θ * Pokud celý teto proces zopakujeme B-krát, dostaeme θ * 1,, θ * B, které představují bootstrap populaci parametru θ* Obvyklým způsobem se pak dá spočítat aritmetický průměr a směrodatá odchylka a pro velké B pak můžeme sestrojit histogram, který odpovídá rozděleí parametru θ * Pivotové odhady Nechť U je áhodá spojitá veličia se středí hodotou E(U) = 0, rozptylem D(U) = 1 a hustotou pravděpodobosti f(u) Nechť X je áhodá spojitá veličia daá vztahem X = μ + σu, kde σ > 0, s hustotou pravděpodobosti g(x) = 1 ( ) x μ σ f σ 18

19 Pak X je áhodá spojitá veličia se středí hodotou E(X) = μ, rozptylem D(X) = σ a směrodatou odchylkou σ(x) = σ O pár řádků íž si ukážeme, jak metodou bootstrap můžeme získat odhad kofidečího itervalu pro odhady středí hodoty μ, rozptylu σ a směrodaté odchylky σ Budeme odhadovat μ výběrovým průměrem X a σ výběrovou směrodatou odchylkou S Itervalový odhad středí hodoty Pokud U má ormovaé ormálí rozděleí pravděpodobosti N(0, 1), pak statistika t = X μ S/ má Studetovo rozděleí pravděpodobosti s 1 stupi volosti a platí ( ) X μ P t 1 α < S/ < t 1 α = 1 α, kde t 1 α je (1 α )-kvatil Studetova rozděleí s 1 stupi volosti Kofidečí iterval se spolehlivostí 1 α je μ ( X t 1 α S ; X + t 1 α ) S Pokud U emá ormovaé ormálí rozděleí pravděpodobosti a rozděleí pravděpodobosti statistiky t je stále ezávislé a μ, σ, tak už ejde o Studetovo t - rozděleí I přesto, pokud bychom chtěli zjistit hodoty kvatilů tohoto ezámého rozděleí, tak by stále platilo ( ) X μ P t α < S/ < t 1 α = 1 α Metodou bootstrap odhademe hodoty kvatilů rozděleí pravděpodobosti statistiky t Na ásledujícím postupu si ukážeme, jak můžeme získat kofidečí iterval pro μ = E(X) Pro pozorováí (x 1,, x ) áhodého výběru (X 1,, X ) spočteme hodoty výběrového průměru X a výběrové směrodaté odchylky S, vygeerujeme B áhodých bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru X, pro každý takto vygeerovaý bootstrapový výběr se spočte pozorovaá hodota výběrového průměru X * i a hodota výběrové směrodaté odchylky S i * hodota statistiky t, t * i = X* i X S i */, a 19

20 kde i = 1,, B, odhademe α-kvatil a (1 α )-kvatil rozděleí pravděpodobosti statistiky t * pomocí hodot t * α a t * 1 tak, že α { t * i ; t * i t * α B } { } t * i ; t * i t * 1 α B = α, = 1 α, pak bootstrapovým kofidečím itervalem se spolehlivostí 1 α pro středí hodotu E(X) je ( X t * 1 α S ; X t * α ) S Itervalový odhad rozptylu a směrodaté odchylky Nechť U má ormovaé ormálí rozděleí pravděpodobosti N(0, 1), pak statistika χ = ( 1)S σ má Pearsoovo rozděleí pravděpodobosti s 1 stupi volosti a platí ( ) P χ ( 1)S α < < χ σ 1 α = 1 α, kde χ α a χ 1 jsou α-kvatil a (1 α )-kvatil Pearsoova rozděleí s 1 stupi α volosti Kofidečí iterval se spolehlivostí 1 α je ( ( 1)S ; χ 1 α ( 1)S χ α Pokud U emá ormálí rozděleí pravděpodobosti a rozděleí pravděpodobosti statistiky χ je ezávislé a μ a σ, tak už ejde o Pearsoovo rozděleí I přesto pokud bychom chtěli zjistit hodoty kvatilů tohoto ezámého rozděleí, tak ( ) P χ ( 1)S α < < χ σ 1 α = 1 α, by stále platilo Metodou bootstrap odhademe hodoty kvatilů rozděleí pravděpodobosti statistiky χ Na ásledujícím postupu si ukážeme, jak můžeme získat kofidečí iterval pro σ = D(X) a σ = σ(x) Pro pozorováí (x 1,, x ) áhodého výběru (X 1,, X ) spočteme hodoty výběrového rozptylu S, ) 0

21 vygeerujeme B áhodých bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru X, pro každý takto vygeerovaý bootstrapový výběr se spočte pozorovaá hodota výběrového rozptylu S * i a hodota statistiky χ, kde i = 1,, B, χ * i = ( 1)S* i S, odhademe α-kvatil a (1 α )-kvatil rozděleí pravděpodobosti statistiky χ * pomocí hodot χ * α a χ * 1 tak, že α { { } χ * i ; χ * i χ * α B } χ * i ; χ * i χ * 1 α B = α, = 1 α, pak bootstrapovým kofidečím itervalem se spolehlivostí 1 α pro rozptyl D(X) je ( ) ( 1)S ( 1)S ; χ * 1 α a bootstrapovým kofidečím itervalem se spolehlivostí 1 α pro směrodatou odchylku σ(x) je ( ( 1)S Kvatilové odhady χ * 1 α χ * α ) ( 1)S ; V této části se podíváme a itervalové odhady vycházející přímo z rozděleí pravděpodobosti bodových odhadů Jedá se o zcela obecé postupy, proto je můžeme použít pro libovolé parametry, případě parametrickou fukci, a pro libovolý jeho odhad χ * α Jedoduchý kvatilový kofidečí iterval Nechť θ je odhad parametru θ a σ je odhad jeho směrodaté odchylky Stadardí ormálí kofidečí iterval je tvaru ( θ z1 α σ; θ z α σ ) 1

22 Nechť θ * ozačuje ) áhodou proměou s ormálím rozděleím pravděpodobosti N ( θ, σ Pak θ z 1 α σ = θ * 1 α θ z α σ = θ * α = θ * 1 α = 100 (1 α ) percetil rozděleí θ *, = 100 ( α ) percetil rozděleí θ * Následující postup ám demostruje, jak lze sestrojit jedoduchý kvatilový kofidečí iterval Vygeerujeme B áhodých bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru X, para- pro každý takto vygeerovaý bootstrapový výběr se spočte odhad θ i * metru θ, odhademe kvatily (1 α) a α -kvatil rozděleí pravděpodobosti bootstrapové statistky θ * pomocí hodot θ * α, θ 1 * tak, že α { θ* i ; θ i * θ } * α = α B, { θ* i ; θ i * θ } 1 * α B = 1 α bootstrapovým jedoduchým kvatilovým kofidečím itervalem se spolehlivostí 1 α je ( θ* α ; θ 1 * α Reziduový kvatilový kofidečí iterval Výrazem e = θ θ chápeme reziduum α-kvatil a (1 α )-kvatil rozděleí pravdě- podobosti áhodé veličiy e ozačíme eα a e 1 α Pak platí ) P ( e α < θ θ e 1 α ) = 1 α Na základě toho odvodíme kofidečí iterval se spolehlivostí 1 α ( θ e1 α ; θ ) e α Protože kvatily rozděleí pravděpodobosti rezidua ezáme, musíme je odhadout metodou bootstrap Nyí si ukážeme postup pro získáí reziduového kofidečího itervalu Nejprve z pozorovaých hodot x áhodého výběru X spočteme odhad θ parametru θ,

23 vygeerujeme B bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru pozorovaých hodot x, para- pro každý takto vygeerovaý bootstrapový výběr se spočte odhad θ i * metru θ a reziduum e * i = θ i * θ, v předposledím kroku odhademe α-kvatil a (1 α )-kvatil rozděleí pravděpodobosti reziduí e * pomocí e * α a e * 1 tak, že α { e * i ; e * i e * α B } { } e * i ; e * i e * 1 α = α, = 1 α B a akoec bootstrapovým reziduovým kofidečím itervalem se spolehlivostí 1 α je ( θ e * 1 α ; θ ) e * α Možostí, jak zkostruovat kofidečí iterval metodou bootstrap je více: a) studetizovaý bootstrap iterval, b) BC a iterval (bias-corrected a accelerated ), c) ABC iterval (approximate bootstrap kofidece iterval), d) prepivotig bootstrap iterval Studetizovaé itervaly spolehlivosti Nechť statistika T = θ θ má ormálí rozděleí pravděpodobosti N(0, 1) a echť σ začí α-kvatil ormálího rozděleí N(0, 1) Pak obecě lez zapsat iterval u α spolehlivosti jako ( θ u1 α σ; θ ) u α σ a teto výraz se azývá stadardí iterval spolehlivosti parametru θ se spolehlivostí 1 α, kde σ je odhad směrodaté odchylky a u 1 α je (1 α )-kvatil ormálího rozděleí (tj 1, 96 pro 95% kofidečí iterval, kde α = 0, 05) Pro iterval spolehlivosti ( θ u1 α σ; θ ) u α σ vycházíme z předpokladu T = θ θ θ θ N(0, 1) Pokud ale můžeme předpokládat, že T = t( 1), kde t( 1) σ σ reprezetuje Studetovo t-rozděleí pravděpodobosti s 1 stupi volosti A platí P ( t 1 α < θ θ σ < t 1 α ) = 1 α, kde t 1 α je (1 α )-kvatil Studetova rozděleí pravděpodobosti s 1 stupi volosti Pak užitím této t aproximace dostaeme iterval spolehlivosti pro parametr θ, θ ( θ t1 α σ; θ + t 1 α σ ) 3

24 Teď použijme metodu bootstrap ke zjištěí kofidečího itevalu bez utosti předpokladu ormality Postup pro zjištěí bootstrapového itervalu je ásledující, ejprve z pozorovaých hodot x áhodého výběru X spočteme odhad θ parametru θ, vygeerujeme B bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru X, para- pro každý takto vygeerovaý bootstrapový výběr se spočte odhad θ i * metru θ a jeho směrodatá odchylka σ i *, dále pro každý bootstrapový výběr spočteme hodotu statistiky T, kde i = 1,, B, t * i = θ i * θ, σ i * spočteme odhad výběrové směrodaté odchylky σ i * odhadu θ, v předposledím kroku se spočte odhad hodoty (1 α )- kvatilu rozděleí pravděpodobosti bootstrapové statistky T * pomocí hodot t * 1 tak, že α { } t * i ; t * i t * 1 α = 1 α B, { } t * i ; t * i t * α = α B, a akoec bootstrapovým t-kofidečím itervalem se spolehlivostí 1 α je ( θ t * α σ * ; θ ) + t * 1 α σ * Výhodou studetizovaého bootstrapu je, že je to přístup ituitiví a jedoduchý a pochopeí Ale evýhodou je, že tato metoda eí "automaticky spočítatelá", protože závisí a existeci věrohodého odhadu směrodaté odchylky σ(x 1, x,, x ) V praxi tato metoda může dávat zavádějící výsledky a může být silě ovlivěa odlehlými pozorováími Proto metody založeé a percetilu jsou více spolehlivé BC a iterval (bias-corrected ad accelerated) Rozděleí pravděpodobosti θ * je obvykle esymetrické a zešikmeé a jedu strau Pokud jedoduché a reziduové kvatilové kofidečí itervaly jsou vychýleé ebo příliš široké oproti hodotám z praktického pozorováí, tak tyto edostatky můžeme odstrait pomocí BC a kofidečích itervalů Tyto itervaly jsou také omezey 4

25 dvěma kvatily rozděleí pravděpododbosti bootstrapového odhadu θ *, ale emusí se utě jedat o α-kvatil a (1 α )-kvatil se spolehlivostí 1 α jako v předchozích metodách Pro tuto metodu je důležitý předpoklad, že existuje ějaká trasformace parametru θ s ormálím rozděleím pravděpodobosti a se středí hodotou a rozptylem závisejícím a θ Kofidečí iterval se pak zkostruuje pro trasformovaý parametr a pomocí iverzí trasformace mezí získáme kofidečí iterval pro θ Trasformaci z předpokladu emusíme zát v explicitím tvaru, stačí a i použít metodu bootstrap BC a metoda závisí a dvou umerických parametrech: bias-korekce z 0, zrychleí a Předpokládejme, že existuje rostoucí trasformačí zobrazeí T takové, že T ( θ) má ormálí rozděleí pravděpodobosti se středí hodotou E[T ( θ)] = T (θ) z 0 [1 + αt (θ)] a směrodatou odchylkou σ[t ( θ)] = 1 + αt (θ) Kofidečí iterval se spolehlivostí 1 α se odvodí z ( ) P u 1 α < T ( θ) T (θ) 1 + αt (θ) + z 0 < u 1 α = 1 α jako ( T ( θ) + z0 u 1 α 1 a(z 0 u 1 α α ) ) ; T ( θ) + z0 + u 1 1 a(z 0 + u 1 α ) Protože áhodé veličiy T ( θ * ) T ( θ) + z 0, 1 + at ( θ) T ( θ) T (θ) 1 + at (θ) + z 0 mají stejé rozděleí pravděpodobosti (dle předpokladu se jedá o ormovaé ormálí rozděleí pravděpodobosti) a platí ( P T ( θ * ) < T ( θ) ) ( + z 0 u 1 α T ( θ * ) T ( θ) 1 a(z 0 + u 1 α ) = P + z 0 < 1 + at ( θ) ( = P U < z 0 + u 1 α 1 a(z 0 + u 1 α ) + z 0 z 0 + u 1 α 1 a(z 0 + u 1 α ) + z 0 ), ) 5

26 kde U má ormovaé ormálí rozděleí pravděpodobosti Pak horí mez kofidečího itervalu pro T (θ) je u H = z 0 + u 1 α 1 a(z 0 + u 1 α ) + z 0 Obdobě dostaeme i dolí mez kofidečího itervalu z 0 u 1 α u D = 1 a(z 0 u 1 α ) + z 0 Nyí odhademe hodoty parametrů z 0, a Nechť θ i je odhad parametru θ, který dostaeme vyecháím i-tého pozorováí z áhodého výběru, tj áhodý výběr se zmodifikuje jako (X 1,, X i 1, X i+1,, X ) Dále ozačíme Pak spočítáme θ = 1 i=1 θ i i=1 ( θ i θ) 3 a = [ ) ] 3 σ i=1 ( θ i θ Nyí si předvedeme postup pro získáí BC a kofidečího itervalu pro parametr θ Nejprve z pozorovaých hodot x áhodého výběru X spočteme odhad θ parametru θ, vygeerujeme B bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru pozorovaých hodot x, pro každý takto vygeerovaý bootstrapový výběr se spočte odhad θ i * parametru θ, spočteme korekci vychýleí mediáu { θ* z 0 = Φ 1 i ; θ θ} i * <, B kde Φ 1 je iverzí distribučí fukce ormovaého ormálího rozděleí pravděpodobosti, 6

27 dále spočteme parametr akcelerace a, ( θ i θ) 3 a = i=1 [ ) ] 3, σ i=1 ( θ i θ z předchozích výpočtů spočteme ( ) z 0 u 1 α α 1 = Φ 1 a(z 0 u 1 α ) + z 0, ( ) z 0 + u 1 α α = Φ 1 a(z 0 + u 1 α ) + z 0, v předposledím kroku odhademe α 1 -kvatil a (1 α )-kvatil rozděleí pravděpodobosti statistiky θ * pomocí θ α * 1, θ 1 α * tak, že { θ* i ; θ i * θ } α * 1 = α 1, B { θ* i ; θ i * θ } 1 α * = 1 α, B BC a kofidečí iterval se spolehlivostí 1 α pro parametr θ je ( θ* α 1 ; θ ) 1 α * Parametr zrychleí a se edá přímo odhadout z bootstrapových dat Protože BC a itervaly závisí a parametru a, který ejde odhadout z bootstrapových dat, tak se tato metoda stává méě ituitiví Pokud zvolíme a = 0, tak dostaeme jedodušší verzi BC a kofidečích itervalů, tzv BC kofidečí iterval ABC metoda (approximate bootstrap kofidece iterval) Nyí opustíme oblast, kdy jsme měli je jede parametr a přejdeme ke složitější situaci V moha takových případech je možé aproximovat kocové body BC a itervalu aalyticky Hlaví evýhodou BC a itervalů je velký počet bootstrapových výběrů ABC metoda kostrukce kofidečích itervalů je metoda aproximující kocové body BC a kofidečích itervalů aalyticky Je možé teto přístup aplikovat také a eparametrický problém 7

28 Kocové body BC a itervalu závisí a distribučí fukci G a a odhadech parametrů a, z 0 ABC přístup vyžaduje avíc jede odhad elieárího parametru c q, ale to ijak ekomplikuje výpočet distribučí fukce G Stadardí itervaly závisí pouze a dvou veličiách, ( θ, σ) ABC itervaly závisí a pěti veličiách, ( θ, σ, a, z 0, c q ) Místo odhadu z 0 se použije bootstrapové rozděleí pravděpodobosti jako v BC a metodě Prepivotig metoda (kalibrace bootstrap) Kalibrace je bootstrapová techika a získáí kofidečího itervalu s vyšším řádem přesosti Předpokládejme, že θ(α) je horí mez jedostraé α-aproximace kofidečího itervalu pro parametr θ Nechť γ(α) = P (θ < θ(α)) je kalibračí křivka Pokud aproximace je přesá, pak γ(α) = α pro ějaké daé α Nebo také můžeme použít kalibračí křivku pro aproximaci kofidečího itervalu Např: pro γ(0, 03) = 0, 05, γ(0, 96) = 0, 975 lze použít ( θ[0, 03], θ[0, 96]) jako aproximaci 0, 95 kofidečího itervalu V aplikacích obvykle ezáme kalibračí křivku γ(α), ale můžeme použít bootstrap metodu a odhad γ(α): γ(α) = P * ( θ < θ * (α)), kde P * udává bootstrapová data a θ * (α) je horí mez α-itervalu Tato metoda se dá aplikovat a všechy předchozí metody, apř: k získáí třetího řádu přesosti kofidečích itervalů ze studetizovaých bootstrap itervalů Bootstrap kalibrace řeší více výpočtů, v praxi obvykle velikost testovaého souboru ebývá tak velká, tak lze použít jedu bootstrap kalibraci V moha literaturách o metodě bootstrap se řeší problém, jak zkostruovat kofidečí itervaly vyšších řádů přesosti ež prvího Pro tyto případy existují právě předchozí 4 metody: a) studetizovaý bootstrap iterval, b) BC a iterval (bias-corrected a accelerated ), c) ABC iterval (approximate bootstrap kofidece iterval), d) prepivotig bootstrap iterval 8

29 33 Praktická aplikace Uvažujme situaci, kdy jsme vygeerovali soubor X o pozorováí, pro který spočteme příslušé charakteristiky, středí hodotu, směrodatou odchylku, rozptyl a špičatost x -,14 0,06 0,537-0,54,47-1,84 1,54,780-0,531 1,065 0,315-1,997-1,095-1,186 1,466 0,169 1,544 1,80 1,791 0,680 E(X) = 0, 379 σ(x) = 1, 393 σ (X) = D(X) = 1, 94 γ = 0, 54 Na teto soubor X aplikujeme metodu bootstrap Tedy provedeme B-krát výběr s opakováím a dostaeme boostrapový výběr X * Každý soubor X i * obsahuje hodoty x 1,, x z původího výběru X s pravděpodobostí 1 x * 1 1,54 0,537 1,466 1,54-1,186-1,997 0,680 -,14-1,84-0,531 1,80 1,466-0,531-1,095 -,14-0,54-1,095 1,544-1,84 -,14 x *,780,47-1,997-0,531 0,169-1,095-1,997 1,791,780-1,84 1,80 1,544 1,065 1,791-0,54 1,065 1,065 0,169-0,531-1,186 x * 3-1,186 -,14 1,80-0,54 -,14-1,186-0,54 -,14 -,14 0,680 1,065 -,14,780 0,537 0,06,47-1,997-0,54 -,14 1,065 x * 4,780 0,06 1,791-1,186 1,466 1,466 0,537 1,80-1,997 0,169-1,186-1,997 0,169 -,14 1,54 -,14 1,065 1,065 0,537 1,544 x * 5 1,466 1,065 0,315-1,095 0,169 0,537 -,14-0,54 1,791,780 1,791 0,680,47 1,54 1,80-1,997,47,47 0,680-1,997 9

30 Pro jedotlivá X i * spočteme příslušé charakteristiky, tím dostaeme B hodot charakteristik a tedy i statistický soubor o B prvcích, pro který budeme počítat jedotlivé kofidečí itervaly Spočtěme středí hodotu, směrodatou odchylku, rozptyl a špičatost E(X * ) σ(x * ) D(X * ) γ * -0,66 1,459,18 0,130 0,470 1,530,340-0,116-0,40 1,658,750 0,377 0,67 1,545,387-0,448 0,690 1,54,34-0,733 0,99 1,399 1,957-0,018 0,576 1,457,14-0,188 0,98 1,416,006-0,367-0,066 1,30 1,695-0,095 0,883 1,195 1,47-0,40 Nyí máme potřebé podklady k tomu, abychom se mohli zabývat kofidečími itervaly pro jedotlivé charakteristiky Spočítáme 90% kofidečí iterval středí hodoty, směrodaté odchylky, rozptylu a špičatosti E(X * ) 1, 978; 1, 887 σ(x * ) 3, 395; 4, 985 D(X * ) 11, 56; 4, 85 γ * 0, 574; 0, 596, ( ( ) kde E(X * ) X t * S 1 α ; X t * α S ), D(X * ( 1)S ) ; ( 1)S a bootstrapovým kofidečím itervalem se spolehlivostí 1 α pro směrodatou χ * 1 α χ * α odchylku ( σ(x) je σ(x * ( 1)S ) ; χ * 1 α ( 1)S χ * α ) Bootstrapovým reziduovým kofidečím ) itervalem špičatosti γ se spolehlivostí 1 α je γ * ( θ e * 1 ; θ e * α α Se zalostí kofidečích itervalů můžeme testovat statistické hypotézy, apř, zda středí hodota bootstrapového souboru je ula, H 0 : E(X * ) = 0, proti alterativě, že středí hodota je růzá od uly, H 1 : E(X * ) 0 Pro aši situaci vidíme, že ula je prvkem kofidečího itervalu pro E(X * ), tak hypotézu H 0 ezamítáme a hladiě výzamosti α, α = 0, 1 30

31 4 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Výsledky v této části diplomové práce jsou podložey zdrojem [11] Sledujeme-li áhodé veličiy a áhodé vektory, může se stát, že okolosti ás přimějí ověřit určité předpoklady či doměky o jejich vlastostech pomocí jejich pozorovaých hodot Tato tvrzeí se azývají statistické hypotézy a eexistuje matematický postup, který by prokázal, že daá statistická hypotéza platí Pouze rozhode, zda tuto hypotézu zamítáme a dopustíme se chyby s pravděpodobostí meší ež α, ebo hypotézu ezamítáme, ale ezameá to, že hypotéza musí platit, můžeme mít je edostatek iformací, abychom hypotézu zamítli Statistická hypotéza H 0 je tvrzeí o vlastostech rozděleí pravděpodobosti pozorovaé áhodé veličiy X s distribučí fukcí F (x, θ) ebo áhodého vektoru (X, Y ) se simultáí distribučí fukcí F (x, y, θ) Postup, kterým ověřujeme daou statistickou hypotézu, se azývá test statistické hypotézy Hypotézu H 0 také azýváme ulovou hypotézou a testujeme ji proti hypotéze H 1, která se azývá alterativí hypotéza, která se volí dle požadavků úlohy Řekěme, že hypotéza H 0 je tvrzeí, které říká, že parametr θ má hodotu θ 0, pak píšeme H 0 : θ = θ 0 Podle tvaru hypotézy H 1 mohou astat dva případy Pokud H 1 je tvaru H 1 : θ θ 0, tak se jedá o dvoustraou alterativí hypotézu Je-li H 1 tvaru H 1 : θ > θ 0, resp H 1 : θ < θ 0, jedá se o jedostraou alterativí hypotézu Pokud testujeme hypotézu H 0 : θ = θ 0 proti ějaké zvoleé alterativě H 1, tak zkostruujeme vhodou statistiku T (X 1,, X ) a tuto statistiku T azýváme testové kritérium Předpokládejme, že platí hypotéza H 0 : θ = θ 0, pak obor hodot testového kritéria T (X 1,, X ) se rozdělí a dvě disjuktí podmožiy, kritický obor W α a jeho doplěk W α Kritický obor W α se volí tak, aby pravděpodobost, že T (X 1,, X ) abude hodotu z kritického oboru W α, byla α (přesěji pro diskrétí áhodou veličiu T ejvýše α) W α se azývá obor ezamítutí Číslo α se azývá hladia výzamosti testu a volíme ji blízkou ule (obvykle 0, 05 ebo 0, 01) Rozhodutí o hypotéze H 0 se provede podle kovece, pokud pozorovaá hodota testového kritéria t = T (x 1,, x ) a statistickém souboru (x 1,, x ) pade do kritického oboru W α, eboli t W α, hypotézu H 0 zamítáme a současě hypotézu H 1 ezamítáme a hladiě výzamosti α Pokud astae opačá situace, tedy t epade do kritického oboru W α, eboli t W α, tak ezamítáme hypotézu H 0 a současě zamítáme hypotézu H 1 a hladiě výzamosti α Při testováí hypotézy H 0 mohou astat čtyři možosti Chyba prvího druhu astae, jestliže hypotéza H 0 platí, avšak t W α, takže hypotézu H 0 zamítáme Pravděpodobost této chyby je α = P (T W α H 0 ) 31

32 H 0 PLATÍ NEPLATÍ ZAMÍTÁME CHYBA 1 DRUHU (α) NEZAMÍTÁME CHYBA DRUHU (β) Tab 41: Skutečost versus rozhodutí Chyba druhého druhu astae, jestliže hypotéza H 0 eplatí, avšak t / W α, takže hypotézu H 0 ezamítáme Pravděpodobost této chyby je β = P (T / W α H 1 ) a pravděpodobost 1 β = P (T W α H 1 ) se azývá síla testu Hladia výzamosti α, tedy pravděpodobost chyby prvího druhu, má statistický výzam, pokud mohokrát opakujeme experimet za stejých podmíek a současě platí hypotéza H 0, tak se přibližě v 100α% testech této hypotézy zmýlíme, tudíž zamíteme platou hypotézu Obdobě, pokud hypotéza H 0 eplatí, tak se přibližě v 100β% testech této hypotézy zmýlíme a ezamíteme ji Sížíme-li hladiu výzamosti α a ezměíme rozsah statistického souboru, zvýší se β a aopak, tudíž pro zvoleou hladiu výzamosti α zajišťujeme sížeí β zvýšeím rozsahu Pokud testujeme statistické hypotézy a počítačích, tak se místo kritické ho oboru W α používá tzv P-hodota Testujeme-li hypotézu H 0 : μ = μ 0 proti dvoustraé alterativě H 1 : μ μ 0, pak pro pozorovaou hodotu t testového kritéria T je P -hodota číslo 1 P ( t T t) Při daé koveci rozhodutí pomocí kritického oboru odpovídá postup, pokud P < α, pak zamítáme hypotézu H 0 a současě ezamítáme H 1 a hladiě výzamosti α Pokud P α, pak ezamítáme hypotézu H 0 a současě zamítáme hypotézu H 1 a hladiě výzamosti α Použití metody bootstrap pro testováí hypotéz je více či méě samozřejmé, protože můžeme použít pozatků z kofidečích itervalů, kdy můžeme testovat rovost parametru ějaké specifické hodoty, obvykle se testuje ulovost parametru Tedy pokud budeme testovat hypotézu H 0 : θ = θ 0 a hladiě výzamosti α, pak sestrojíme kofidečí iterval pro parametr θ se spolehlivostí 1 α Hypotézu H 0 ezamítáme a hladiě výzamosti α, pokud θ 0 bude prvkem příslušého kofidečího itervalu V opačém případě hypotézu H 0 zamítáme Testujeme-li hypotézu H 0 : θ = θ 0 proti alterativí hypotéze H 1 : θ θ 0, a pokud t W α = t α ; t 1 α, pak hypotézu H0 ezamítáme a současě hypotézu H 1 zamítáme a hladiě výzamosti α Testujeme-li hypotézu H 0 : θ = θ 0 proti jedostraé hypotéze H 1 : θ > θ 0, a pokud t W α = ( ; t 1 α, pak hypotézu H0 ezamítáme a současě hypotézu H 1 zamítáme a hladiě výzamosti α Nebo pokud testujeme hypotézu H 0 : θ = θ 0 3

33 proti jedostraé hypotéze H 1 : θ < θ 0, a pokud t W α = t α ; ), pak hypotézu H 0 ezamítáme a současě hypotézu H 1 zamítáme a hladiě výzamosti α 33

34 5 REGRESNÍ ANALÝZA Teoretické výsledky této kapitoly jsou podložey zdroji [11], [17], [19] Ve statistice důležitou roli hraje hledáí, zkoumáí a hodoceí závislostí proměých, jejichž hodoty získáme při realizaci experimetu Podle charakteru proměých dostáváme áhodý vektor X ezávisle proměých (regresorů) X 1,, X k a závisle proměé (regresaty, respoze) Y 1,, Y Náhodý vektor X může být i eáhodý (časté v aplikacích) ebo rozptyly všech složek X 1,, X k jsou zaedbatelé vůči rozptylu áhodé veličiy Y Nástrojem pro popis a vyšetřováí závislosti Y a X je regresí aalýza Tuto závislost lze vyjádřit ve tvaru Y = f (X 1,, X k ) + e Čle e v modelu zastupuje áhodou chybu reprezetující odchylku od aproximace Fukce f se azývá regresí fukce, která může abývat moha podob Podle typu regresí fukce rozezáváme dva typy regresích modelů, lieárí regresí model (lieárí vzhledem k parametrům): y = a + bx y = a + bx + cx ( ) b y = a + x a elieárí regresí model (elieárí postaveí parametrů): y = a x b y = a e bx y = a e k x Nejčastější vztah mezi proměými je lieárí a model je pak tvaru Y = β 0 + β 1 X β k X k + e β = (β 1,, β k ) T začí vektor parametrů, tzv regresích koeficietů Tyto koeficiety je potřeba z dostupých dat aproximovat Regresí aalýza se skládá z ěkolika kroků: 1 Specifikovat úlohu, eboli určit, jakou máme úlohu k řešeí Vybrat proměé, které by mohly mít vliv a závislou proměou, eboli vybrat ezávisle proměé 34

35 3 Shromáždit data a vytvořit matici pláu X o řádcích a k sloupcích 4 Specifikováí modelu patří k ejdůležitější části regresí aalýzy, protože evhodě zvoleý model může vést k zavádějícím výsledkům 5 K odhadutí regresích koeficietů se ejčastěji používá metoda ejmeších čtverců, která miimalizuje součet čtverců vzdáleostí bodů v k + 1 rozměrém prostoru od přímky proložeé tímto prostorem a tato proložeá přímka reprezetuje výsledou regresí rovici Součet čtverců S = e i = i=1 k (Y i x ij β j ) = e T e = (Y Xβ) T (Y Xβ), i=1 j=1 kde e je vektor reziduí, β je vektor regresích parametrů, X je matice ezávislých proměých a Y je vektor závislé proměé Pro aplikaci metody ejmeších čtverců by měly být splěy ěkteré požadavky Mezi ejdůležitější podmíky patří: regresí parametry mohou abývat libovolých hodot, áhodé chyby mají ormálí rozděleí N(0, σ ), pokud eí splěa podmíka ulovosti středí hodoty, tak se absolutí čle posue; rozptyl by měl být koečý a kostatí, áhodé chyby jsou vzájemě ekorelovaé 6 Pokud zjistíme přesou podobu regresí rovice, tak můžeme pro každé pozorováí vyjádřit reziduum, rozdíl skutečé hodoty závisle proměé a výsledku vypočteého modelu Za pomoci reziduí a reziduálího součtu čtverců (RSS) můžeme odhadout, jak je model správě sestave a porovat ho s jiými modely 7 Shledáme-li model za dostatečě dobrý, pak jej můžeme použít k řešeí úlohy Podstatou řešeí regresí aalýzy je staovit ejlepší regresí model (zjistit matematickou rovici, která popisuje závislost Y a X), parametry modelu (určit ejlepší odhady parametrů β), statistickou výzamost modelu (rozhodout, zda alezeý model přispěje ke zlepšeí odhadu závisle proměé proti použití průměru) a výsledky daé modelem iterpretovat z hlediska zadáí 51 Lieárí regresí model Mějme áhodé veličiy Y 1,, Y a matici daých čísel X = (x ij ) typu k, kde k < Mějme áhodý vektor Y = (Y 1,, Y ) T, o kterém předpokládáme, že platí Y = Xβ + e, 35

36 kde β = (β 1,, β k ) T je vektor ezámých parametrů, tzv regresích koeficietů a e = (e 1,, e ) T začí vektor áhodých chyb, který splňuje podmíky Dále Y = Y 1 Ee = 0, vare = σ I představuje matici závisle proměé a matice X = Y x 11 x 1k představuje matici ezávisle proměé ebo-li matici pláu x 1 x k Dále musí být splěy ěkteré předpoklady: 1 X k je matice reálých čísel, h(x) k, tj k, Pokud h(x) = k, pak říkáme, že se jed8 o model plé hodosti, Pokud h(x) < k, pak říkáme, že model eí plé hodosti 3 Ee = 0, tj Ee i = 0, i = 1,,, tedy áhodé chyby jsou systematické Pak EY =E(Xβ + e) = Xβ+Ee = X(β), 4 vare = σ I, tj áhodé chyby e i, e j jsou ekorelovaé pro i j, De i = σ, i = 1,, Tedy jedá se o ekorelovaé chyby s homogeím rozptylem Rozptyl σ je ezámý parametr, σ > 0 Zřejmě vare =var(y) = σ I Uvedeý model azveme lieárí regresí model a ozačíme (Y, Xβ, σ I) Dále budeme pracovat s lieárím regresím modelem plé hodosti, tedy h(x) = k Navíc předpokládejme, že k <, tj matice X k má hodost k, tedy má ezávislé sloupce Uvědomme si, že počet sloupečků matice X se musí rovat počtu řádků matice β Pokud se požadují apř dva parametry β 0, β 1 a pokud máme změřea je data typu (x i, y i ), pak se matice X zkostruuje tak, že se uměle vloží jede sloupec se samými jedičkami a dostaeme Y 1 Y = 1 x 1 ( 1 x Úkolem lieárí regrese je ajít odhad vektoru regresích koeficietů β, oz b Pro tyto účely byly vedle metody ejmeších čtverců vypracováy i jié metody, apř metoda maximálí věrohodosti, miimalizace absolutí odchylky, miimalizace maximálí chyby Pohlédeme-li a metodu ejmeších čtverců jako a miimalizaci účelové fukce, tak teto pohled můžeme řešit aalyticky ebo algebraicky Z algebraického hlediska β 0 β 1 ) + e 1 e 36

37 miimalizujeme výraz S (β) = (Y Xβ) T (Y Xβ) mi, čímž získáme vektor b, který azveme odhadem vektoru β metodou ejmeších čtverců (Nejlepší estraý odhad vektoru regresích koeficietů β je vektor b získaý metodou ejmeších čtverců, tedy miimalizací reziduálího součtu čtverců) Tedy b = (X T X) 1 X T Y miimalizuje S (β), zřejmě b je určeo jedozačě v lieárím regresím modelu plé hodosti Odhad parametru β v lieárím regresím modelu plé hodosti je dá řešeím ormálích rovic X T Xβ = X T Y Výrazu S e = (Y Xb) T (Y Xb) se říká reziduálí součet čtverců, pomocí kterého můžeme vyčíslit odhad σ eboli reziduálí rozptyl s s = S e k, kde k je počet regresích koeficietů A druhé odmociě z reziduálího rozptylu se říká reziduálí směrodatá odchylka Při vyhodocováí lieárích regresích modelů se můžeme setkat s pojmem koeficiet determiace R a koeficiet víceásobé korelace r Koeficiet determiace je defiová jako R = 1 S e S e = 1 S t (Yi Y ), kde S e je reziduálí součet čtverců a S t je celkový součet čtverců odchylek Y i od Y Koeficiet determiace umericky souvisí s výběrovým korelačím koeficietem r X,Y, který je spočteý z dvojic x i, Y i, R = r X,Y Koeficiet determiace se často uvádí v procetech 100 R a udává proceto variability V lieárí regresí aalýze se ejčastěji testuje, zda se ěkterý z regresích koeficietů erová ějaké záme kostatě, apř β = 0 Pro testováí shody regresího koeficietu s kostatou se za testovací statistiku při ulové hypotéze H 0 : β = 0 volí statistika T s rozděleím t( k), T = b 1 var(b1 ), pokud T t 1 α ( k) se H 0 zamítá a úrovi výzamosti α 37

38 5 Základí regresí modely V této části se podíváme a ěkteré základí regresí modely Přímka procházející počátkem Uvažujme model Y i = βx i + e i, i = 1,,, kde předpokládáme, že e i N(0, σ ) Pro případ přímky procházející počátkem se vektor β skládá z jediého prvku β 1 a matice X je velikosti 1, X = (x 1,, x ) T Ze vztahu b = (X T X) 1 X T Y určíme odhad β 1, b 1 = i=1 x iy i i=1 x i Podobě ze vztahu s = Se k s = vypočteme odhad reziduálího rozptylu i=1 Y i S e k = (Y Xb)T (Y-Xb) k = β 1 i=1 x iy i 1 Budeme-li chtít testovat hypotézu o hodotě parametru β i, tedy hypotézu H 0 : β i = a, zejméa a = 0, pak použijeme statistiku T = b a s, x i která má rozděleí t( 1) Pak hypotézu H 0 zamítáme a hladiě α v případě, že T t 1 α ( 1) Obecá přímka Jedá se o obecější model Y i = β 0 + β 1 x i + e i, i = 1,,, pro teto model lze psát a matici X pak píšeme ve tvaru β = (β 0, β 1 ) T X = 1 x 1 1 x 38

39 Ozačme výběrové průměry Pak a dostaeme odhad b vektoru β ( Y = 1 x = 1 Y i, i=1 x i i=1 ( ) ( XX T xi =, X T Y = xi xi b = b 0 b 1 ) = ( Y b1 x xi Y i xy x i x ) ) Yi xi Y i a reziduálí rozptyl Y s = i b 0 Yi b 1 xi Y i Zamyslíme-li se ad výzamem koeficietu b 1, tak zjistíme, že se jedá o vážeý průměr směric všech přímek, které prochází pozorovaými body (x i, Y i ) a těžištěm bodů (x, Y ), přičemž váha každého bodu roste se zvětšující se vzdáleostí x i x Díky tomu zjistíme, že odlehlé body mohou velmi hrubě zatížit odhad regresího parametru Stejě jako v předchozím případě můžeme testovat, jestli závislá veličia Y závisí a ezávislé veličiě X, ebo-li jestli β 1 = 0 Pro testováí ulové hypotézy H 0 : β 1 = 0 se používá statistika T ve tvaru T 1 = b 1 β 1 s x i x eboli T 1 = b 1 x i s x t( ) Nulovou hypotézu zamítáme a hladiě výzamosti α, pokud T 1 t 1 α Iterval spolehlivosti pro závislou veličiu Y se zkostruuje jako b 0 + b 1 x ± t 1 α ( )s 1 + (x x) x i x, ( ) který s pravděpodobostí 1 α překrývá hodotu β 0 +β 1 x Protože dopředu evíme, pro které hodoty se má iterval spolehlivosti vyčíslit, tak se počítají hodoty pro všecha x [mix i, maxx i ] Pokud x probíhá daý iterval, tak vypočteé hodoty vytváří kolem regresí přímky dvě větve hyperboly, mezi imiž leží pás spolehlivosti pro predikovaou závisle proměou Pás spolehlivosti zaručí překrytí jedé hodoty β 0 +β 1 x s pravděpodobostí 1 α Lze odvodit i pás spolehlivosti pro regresí přímku, který překrývá celou přímku s daou pravděpodobostí Teto pás je obecě širší, i když rozdíly ejsou velké 39

40 53 Mohoásobá lieárí regrese Pro případ mohoásobé lieárí regrese můžeme vycházet z rovice b = (X T X) 1 X T Y a výpočet regresích parametrů se zredukuje a maticové operace 54 Testováí hypotéz Můžeme testovat hypotézu o shodě vektoru regresích koeficietů (kromě absolutího čleu) se zámým vektorem, H 0 : b = β oproti alterativě, že H 0 alespoň pro jedu složku eplatí Mezi ejčastější testy hypotéz patří testováí výzamosti parametru β, kdy se zámý vektor položí rove ule, β = 0 Teto test je shodý s testem ezávislosti lieárího regresího modelu, H 0 : R = 0 oproti alterativě H 1 : R > 0 Testovací statistika F e se testuje proti hodotě F p 1, p (α), kde p zastupuje počet regresích parametrů a F e je defiováa jako F e = ( p)r (1 R )(p 1) Pomocí t-testu testujeme jedotlivé parametry, H 0 : b i = β i proti H 1 : b i β i Často parametry β i testujeme a výzamost, tedy β i = 0 Testujeme testovací kritérium tvaru b i β i t i = s (X T X) 1 proti kritické hodotě t 1 α ( p) Pokud vyčíslíme a vyhodotíme tyto testy, tak mohou astat tyto případy: F -test vyjde evýzamý společě se všemi t-testy Pak se model považuje za evhodý, eboť evystihuje variabilitu Y, F -test a všechy t-testy vyjdou výzamé Pak se model považuje za vhodý, ale ezaručí, že je model přijatelý a správý, F -test vyjde výzamý, ale t-testy vycházejí evýzamé u ěkolika regresích parametrů Pak se model považuje za vhodý a pokud je to uté, tak se provede vypuštěí evýzamých parametrů ve vazbě a výsledky multikoliearity, F -test vyjde výzamý, ale všechy t-testy jsou evýzamé, model sice vyhovuje, ale žádý regresí parametr eí výzamý, což bývá důsledkem koliearity 40

41 55 Bootstrap regresí model Také metodou bootstrap můžeme odhadout regresí koeficiety Uvažujme, že pro každé pozorováí máme hodoty závislých a ezávislých proměých uložey ve vektoru z i, z i = (Y i, X i1,, X ik ), i = 1,, Tak dostaeme pozorováí z 1, z,, z, ze kterých výběrem s opakováím vytvoříme bootstrapový výběr z *, který má B moži z * b o velikosti, z * b = (z * b1, z * b,, z * b), b = 1,, B Tedy dostali jsme B bootstrapových moži z * b1, z* b,, z* b spočítáme odhad regresích koeficietů, tedy z * b a pro každé pozorováí b * b = [A * b, B * b1,, B * bk] T, b = 1,, B Teto způsob metody regrese můžeme aplikovat pro výpočet směrodaté odchylky ebo pro výpočet kofidečích itervalů pro regresí odhady Výběr s opakováím z i implicitě považuje regresory X 1,, X k za áhodé více ež za závislé Pokud bychom chtěli uvažovat X jako vázaé, tj pokud bychom data získali z experimetálího měřeí, pro případ lieárí regrese budeme postupovat ásledově: Mějme hodoty ezávislé proměé X a hodoty závisle proměé Y Pro teto původí soubor odhademe regresí koeficiety A 1, B 1,, B k a dále spočteme rezidua E i, Y i = A + B 1 x i1 + + B k x ik E i = Y i Y i Vygeerujeme B bootstrapových výběrů s opakováím e * b z reziduí E i a z ich spočteme příslušé hodoty y * b, e * b = [E * b1, E * b,, E * b] T y * b = [Y * b1, Y * b,, Y * b] T, kde Y bi * = Y i + E bi * a b = 1,, B Nyí pomocí hodot y * b získáme bootstrap regresí koeficiety, apříklad odhady spočteme pomocí metody ejmeších čtverců a pak kde b = 1,, B b * b = (X T X) 1 X T y * b, 41

42 Pokud jsme zkostruovali b * b = [A * b, B* b1,, B* bk ]T, b = 1,, B, tak můžeme těchto hodot využít pro metodu kostrukce směrodaté odchylky a pro kostrukci kofidečích itervalů pro regresí koeficiety Regresí modely a podobé statistické modely mohou být bootstrapováy pomocí dvou áhledů, 1 pokud regresory jsou áhodé a máme bootstrapové výběry z pozorováí z = [Y i, X i1,, X ik ] ebo pokud regresory jsou vázaé a máme výběr z reziduí E i regresího modelu Bootstrapová pozorováí se zkostruují jako Y bi * = Y i +E bi *, kde Y i jsou hodoty z původí regrese a E bi * jsou rezidua b-tého bootstrapového výběru Nevýhodou vázaého X je, že procedura implicitě předpokládá fukčí tvar regresího modelu, který by měl být správý a chyby rovoměrě rozděleé 56 Bootstrap metoda a regresí aalýza v praxi Uvažujme, že máme statistický soubor (X, Y) o = 10 pozorováích, pro který budeme provádět regresí aalýzu Tedy uvažujme statistický soubor (X, Y), pro který sestrojíme regresí model Y i = β 0 + β 1 x i + e i, kde i = 1,, x y 1,9494 4, , , , , , , ,783 Tab 51: Původí soubor (X,Y) Z původího souboru dle předchozí kapitolky vygeerujeme B bootstrapových souborů o velikosti V tomto případě se jedá o boostrapováí dvojic 4

43 V ašem případě jsme vygeerovali 100 boostrapových souborů (X * i, Y * i ) o velikosti 10 vzorků, i = 1,, B x * 1 y 1 * 10 0,78 x * y * 1,95 x * 3 y * 3 4 9,319 x * 4 y * ,454 x * 5 y * 5 3 7, , , ,433 4, , , , , ,300 4, , , ,433 1,95 3 7, , , , , , , , , ,74 3 7, , ,300 4, , ,74 4 9,319 1, , , , , , , ,74 4, ,74 1,95 4 9, , ,319 x * 96 y * ,941 x * 97 y * ,433 x * 98 y * 98 4,681 x * 99 y * ,061 x * 100 y * , , , , , , ,74 4, , , , , , , , , , ,78 3 7, , ,454 4, , , , , , ,941 1,95 4 9, , , , , , , ,319 1, ,74 3 7, , , , , , ,433 Regresí koeficiety původího a boostrapového souboru jsou: Tab 5: Regresí koeficiety původího souboru a boostrapového souboru β 0 β 1 1,034 1,996 43

44 β 0i * β 1i * 1,69 1,905 1,0,016 1,041,03 0,936,01 0,95,007 β 0i * β 1i * 1,131 1,986 1,068 1,984 1,001,004 1,453 1,906 1,468 1,98 Lze metodou bootstrap odhadout regresí koeficiety β 0 * β 1 * pomocí studetizovaého kofidečího itervalu se spolehlivostí 1 α, ( θ t * α σ * ; θ + t * 1 σ ) * Pro α 90% iterval spolehlivosti dostáváme: β * 0 0, 789; 1, 675 β * 1 1, 906;, 047 Stejým způsobem odhademe i koeficiet determiace R *, R * 0, 99; 0, 999 Metodou bootstrap dostaeme i jié parametry regresí aalýzy Nyí se podívejme a grafické zázorěí ašich výsledků za použití metody bootstrap pro regresí aalýzu Pro každý parametr, který jsme dostali, jsme jej vykreslili a sažili se ajít jeho rozděleí pravděpodobosti Pro každý takto alezeý parametr jsme sestrojili 90% kofidečí iterval a též jsme se dívali a rozděleí takto zkostruovaé veličiy Na obrázku 51 vidíme vykresleé largest extreme value rozděleí pravděpodobosti, které fituje rozděleí pravděpodobosti odhadu parametru β 0 * Náhodá veličia popisující sestrojeý kofidečí iterval pro odhad parametru β 0, * obrázek 5, pochází z tří parametrického Weibullova rozděleí 44

45 Obr 51: Odhad parametru β * 0 Obr 5: Kofidečí iterval pro odhad parametru β * 0 Obr 53: Odhad parametru β * 1 Obr 54: Kofidečí iterval pro odhad parametru β * 1 Obrázek 53 zázorňuje čtyř parametrické beta rozděleí, které fituje rozděleí pravděpodobosti odhadu parametru β 1 * Náhodá veličia popisující sestrojeý kofidečí iterval pro odhad parametru β 1, * obrázek 54, pochází také ze čtyř parametrického beta rozděleí Rozděleí pravděpodobosti, které fituje rozděleí pravděpodobosti odhadu koeficietu determiace R *, obrázek 55, se ám epodařilo ajít Ovšem áhodá veličia popisující sestrojeý kofidečí iterval pro odhad koeficietu determiace R *, obrázek 56, pochází z rozděleí čtyř parametrického beta rozděleí Rozděleí, která fitují rozděleí pravděpodobosti odhadu koeficietu víceásobé korelace r *, obrázek 57,a rozděleí pravděpodobosti áhodé veličiy popisující kofidečí iterval odhadu koeficietu víceásobé korelace r *, obrázek 58, se ám epodařilo ajít Na obrázku 59 je vykresleo čtyř parametrické beta rozděleí, které fituje rozděleí pravděpodobosti odhadu chyby středí hodoty Náhodá veličia popisující sestrojeý kofidečí iterval pro odhad chyby středí hodoty, obrázek 510, po- 45

46 Obr 55: Odhad koeficietu determiace R * Obr 56: Kofidečí iterval pro odhad koeficietu determiace R * Obr 57: Odhad koeficietu víceásobé korelace r * Obr 58: Kofidečí iterval pro odhad koeficietu víceásobé korelace r * chází ze tří parametrického Weibullova rozděleí Protože jsme měli sestrojeé horí a dolí meze regresích parametrů pomocí metody bootstrap, tak i pro tyto meze jsme se sažili ajít rozděleí pravděpodobosti Tří parametrické gama rozděleí, tří parametrické logormálí rozděleí a ormálí rozděleí, která fitují rozděleí pravděpodobosti dolí meze parametru β 0, * obrázek 511, se jeví téměř jako shodá a daém statistickém souboru Náhodá veličia popisující sestrojeý kofidečí iterval pro dolí mez parametru β 0, * obrázek 51, pochází ze čtyř parametrického beta rozděleí Čtyř parametrické beta rozděleí pravděpodobosti, které fituje rozděleí pravděpodobosti horí meze parametru β 0, * je vykresleo a obrázku 513 Náhodá veličia popisující sestrojeý kofidečí iterval pro horí mez parametru β 0, * obrázek 514, pochází také ze čtyř parametrického beta rozděleí 46

47 Obr 59: Odhad chyby středí hodoty Obr 510: Kofidečí iterval pro odhad chyby středí hodoty Obr 511: Odhad dolí meze parametru β * 0 Obr 51: Kofidečí iterval pro odhad dolí meze parametru β * 0 Jako ejlepší rozděleí, které fituje rozděleí pravděpodobosti dolí meze parametru β 1, * obrázek 515, se jeví tří parametrické Weibullovo rozděleí Náhodá veličia popisující sestrojeý kofidečí iterval pro dolí mez parametru β 1, * obrázek 516, pochází ze čtyř parametrického beta rozděleí Nejlepším rozděleím, které fituje rozděleí pravděpodobosti horí meze parametru β 1, * obrázek 517, se jeví tří parametrické Weibullovo rozděleí Náhodá veličia popisující sestrojeý kofidečí iterval pro horí mez parametru β 1, * obrázek 518, pochází ze čtyř parametrického beta rozděleí 47

48 Obr 513: Odhad horí meze parametru β * 0 Obr 514: Kofidečí iterval pro odhad horí meze parametru β * 0 Obr 515: Odhad dolí meze parametru β * 1 Obr 516: Kofidečí iterval pro odhad dolí meze parametru β * 1 Obr 517: Odhad horí meze parametru β * 1 Obr 518: Kofidečí iterval pro odhad horí meze parametru β * 1 48

49 6 KONFIDENČNÍ INTERVAL PRO INDIVIDU- ÁLNÍ HODNOTU 61 Kofidečí iterval pomocí regresí aalýzy Pozatky z této kapitoly jsou ze zdroje [11], [13] Předpoklad lieárí regresí aalýzy je, že pozorovaá áhodá veličia Y má rozděleí pravděpodobosti s podmíěou středí hodotou, která je daá lieárí regresí fukcí y = m = β j f j (x), 1 kde f j (x) jsou zámé fukce, které eobsahují regresí koeficiety β 1,, β m Při vyšetřováí závislosti Y a X získáme realizací experimetů vícerozměrý statistický soubor ((x 1, y 1 ),, (x, y )) s rozsahem, kde y i je pozorovaá hodota áhodé veličiy Y i, x i je pozorovaá hodota vektoru ezávisle proměých X, i = 1,, Pomocí tohoto statistického souboru provádíme regresí aalýzu, tedy počítáme potřebé odhady, testujeme hypotézy, verifikujeme daý model atd Při lieárí regresí aalýze, kdy hledáme lieárí regresí fukci, aplikujeme tzv lieárí regresí model, který je založeý a ásledujících předpokladech: 1 Vektor x je áhodý, tedy fukce abývají eáhodých hodot f ji = f j (x i ) pro j = 1,, m a i = 1,, f 11 f 1 Matice F = typu (m ) s prvky f ji má hodost m < m1 m 3 Náhodá veličia Y i má středí hodotu E(Y i ) = m j=1 β jf ji a kostatí rozptyl D(Y i ) = σ > 0 pro i = 1,, 4 Náhodé veličiy Y i jsou ekorelovaé a mají ormálí rozděleí pravděpodobosti pro i = 1,, Odhady regresích koeficietů, rozptylu, fukčích hodot a testy statistických hypotéz o regresích koeficietech provádíme pomocí ásledujících vztahů, pro které si zavedeme ozačeí matic: i=1 H = FF T f 1if 1i i=1 f 1if mi = i=1 f mif 1i i=1 f mif mi, b = b 1 b m, 49

50 y = y 1 y, g = Fy = i=1 f iy i i=1 f miy i kde F T ozačuje traspoovaou matici F Pak platí: 1 Bodovým odhadem regresího koeficietu β j je b j, j = 1,, m a matice b je řešeí soustavy lieárích algebraických rovic Hb = g, které se ozačují jako soustavy ormálích rovic Bodovým odhadem lieárí regresí fukce je y = 3 Bodovým odhadem rozptylu σ je m b j f j (x) j=1 s = S* mi m, kde S mi * = ( i=1 y i ) m j=1 b jg j = i=1 y i m j=1 b jg j je miimálí hodota reziduálího součtu čtverců a g j je prvek matice g 4 Itervalovým odhadem středí fukčí hodoty y se spolehlivostí 1 α je m m b j f j (x) t 1 α s h * ; b j f j (x) + t 1 α s h *, j=1 f 1 (x) kde h * = f(x) T H 1 f(x), kde f(x) = a t 1 α je (1 α)-kvatil f m (x) Studetova rozděleí s m stupi volosti Itervalový odhad idividuálí fukčí hodoty y se spolehlivostí 1 α se získá aalogicky, avšak místo h * se položí 1 + h * Výše uvedeé výsledky můžeme aplikovat pro odhad predikce hodoty y pozorovaé áhodé veličiy Y s ormálím rozděleím pravděpodobosti N(μ, σ ) a to pomocí statistického souboru (y 1,, y ), > My se budeme zabývat případem, kdy m = 1 a f 1 (x) = 1, jedá se o triviálí kostatí lieárí regresí fukci y = β 1 Pro tuto situaci dostaeme H = (), b = (b 1 ), y = y 1 y m j=1, g = (, i=1 y i ) 50

51 Pak bodovým odhadem idividuálí hodoty áhodé veličiy Y je b 1 = 1 y i = y i=1 a bodovým odhadem rozptylu áhodé veličiy Y je s = 1 1 (y i y) i=1 V pricipu se jedá o hodoty zámých estraých odhadů parametrů μ a σ Po dosazeí do itervalového odhadu idividuálí fukčí hodoty regresí fukce a příslušých úpravách dostaeme itervalový odhad idividuálí hodoty áhodé veličiy Y se spolehlivostí 1 α, y t 1 α s ; y + t 1 α s 1 + 1, kde t 1 α je (1 α )-kvatil Studetova rozděleí s 1 stupi volosti 6 Kofidečí iterval pomocí toleračích mezí Druhý způsob odhadu idividuálí hodoty je pomocí využití toleračích mezí pro ezámou středí hodotu ormálího rozděleí Nechť P je pokrytí a 1 α spolehlivost, pak chceme alézt takový iterval, který bude se spolehlivostí 1 α pokrývat alespoň 100P % všech pozorováí Nechť máme áhodý výběr x = (x 1,, x ) z rozděleí N(μ, σ ) s ezámými parametry μ, σ, toleračí meze volíme ve tvaru x ± ks, tj jako fukce postačující statistiky (x, s ) Nejprve se podívejme a jedostraé toleračí itervaly (, x + ks) ebo (x ks, ) Pokud chceme alézt kostaty k, tak uvažujme áhodé veličiy v a χ, které jsou ezávislé, echť v má rozděleí N(δ, 1) a χ má rozděleí χ (ν) Pak áhodá veličia t = v χ /ν má tzv ecetrálí rozděleí t o ν stupích volosti s parametrem ecetrality δ a s hustotou pravděpodobosti f ν (t, δ) = kde < t < 1 (ν 1)/ Γ(ν/) π e νδ /(ν+δ ) ) (ν+1)/ ( 1 + t ν y ν e (y tδ/ ν+t ) / dy, 51

52 Necetrálí rozděleí t s hustotou pravděpodobosti f ν (t, δ) ozačíme t (ν, δ) Pro δ = 0 přechází rozděleí t (ν, δ) a Studetovo rozděleí t(v) Ozačíme-li 100P % kvatil rozděleí t (ν, δ) jako t P (ν, δ), 0 < P < 1, pak z hustoty f ν (t, δ) vyplývá, že f ν (t, δ) = f ν ( t, δ) pro každé reálé t, δ Pak platí t P (ν, δ) = t 1 P (ν, δ) Pro pravostraý toleračí iterval (, x + ks) je ( ) x + ks ν z = P (x < x + ks) = Φ, σ tudíž pro daé 0 < P < 1 je podmíka z P ekvivaletí podmíce x + ks ν σ u P Dále chceme určit k tak, aby pro daou spolehlivost 1 α platilo P (z P ) = 1 α, tedy aby bylo splěo ( ) x + ks σup P (x + ks ν σu P ) = P k = 1 α s Pak áhodé veličiy v = (x + ks σu P ), σ χ ( 1)s = σ jsou ezávislé Náhodá veličia v má rozděleí N( u P, 1) a áhodá veličia χ má rozděleí χ ( 1) Tudíž áhodá veličia t = x + ks σu P s má rozděleí t ( 1, u P ) a z výše uvedeých rovic vyplývá, že kostata k má tvar k = 1 t α( 1, u P ) = 1 t 1 α( 1, u P ) Obdobě pro levostraý toleračí iterval (x ks, ) dostaeme ( ) x ks ν z = P (x > x ks) = 1 Φ σ a pro daé P, 1 α můžeme podmíku P (z P ) = 1 α vyjádřit ve tvaru ( ) x + ks + σup P (x ks ν σu 1 P ) = P (x ks ν σu P ) = P k s = P (t k ) = 1 α, 5

53 kde t má rozděleí t ( 1, u P ) Kostatu k dostaeme ve stejém tvaru, k = 1 t α( 1, u P ) = 1 t 1 α ( 1, u P ) Nyí se podívejme a dvoustraé toleračí itervaly (x ks, x + ks) Pro dvoustraé toleračí itervaly je ( ) ( ) x + ks μ x ks μ z = P (x ks < x < x + ks) = Φ Φ σ σ Protože ás zajímá podíl rozděleí pokrytý itervalem (x ks, x + ks), tak můžeme volit μ, σ libovolé Pro jedoduchost volme μ = 0, σ = 1 Pro daé x dostáváme rostoucí fukci veličiy s Pro daé P, 0 < P < 1, existuje jediá hodota r = ks taková, že Φ(x + r) Φ(x r) = P, přičemž podmíka z P je ekvivaletí podmíce ks r, tudíž podmíěá pravděpodobost P (z P x) = P { ( r ) } { ( r ) } χ = ( 1)s ( 1) x = P χ =, k k protože áhodé veličiy x, χ jsou ezávislé Lze ukázat, že pro epodmíěou pravděpodobost P (z P ) platí vztah ( ) 1 P (z P ) = P z P, který platí již pro Jelikož áhodá veličia χ má rozděleí χ ( 1), je podmíka P (z P ) = 1 α splěa pro 1 k = r χ α( 1), přičemž r určíme podle Φ(x + r) Φ(x r) = P pro x = 1, tedy řešíme rovici ( ) ( ) 1 1 Φ + r Φ + r = P V tabulkách ajdeme hodoty k pro růzé hodoty 1 α, P, 53

54 7 PESIMISTICKÉ ODHADY ROZDĚLENÍ PRAV- DĚPODOBNOSTI KATEGORIÁLNÍ VELIČINY Teoretické výsledky uvedeé v této kapitole jsou převzaty z čláků [14],[15],[16] a zdroje [1] Pro praktickou aplikaci ve druhém příkladu jsme pracovali s daty ze zdroje [18] Základí praktickou úlohou při stochastickém modelováí kategoriálí veličiy X, která abývá koečě moha růzých hodot x * j, j = 1,, m, kde m, je odhad jejího rozděleí pravděpodobosti z pozorovaých hodot x i, i = 1,,, kde > m Zde je uté podotkout, že ozačeí hvězdičkou ezameá totéž ozačeí jako při použití metody bootstrap Proto z důvodu kolize začeí budeme x * j začit odhad jejího rozděleí pravděpodobosti z pozorovaých hodot x i a x ** j začit jtou realizaci bootstrapového výběru X * Nechť pozorováím X získáme statistický soubor (x 1,, x ) hodot x * j a jeho roztříděím dostaeme roztříděý statistický soubor ( ( ) ( ) ) x * 1, f 1,, x * m, fm f, kde j 0 je relativí četost pozorovaé hodoty x * j, j = 1,, m Předpoklad eulových relativích četostí zajistíme, pokud vyecháme odpovídající hodoty x * j Ozačme odhadovaé rozděleí pravděpodobosti p = (p 1,, p m ), kde p j = P (X = x * j) je pravděpodobost, že kategoriálí veličia X abude hodotu x * j, jedá se o odhad parametrů p = (p 1,, p m ) multiomického rozděleí pravděpodobosti M(, p 1,, p m ) při zámém Pokud byl statistický soubor (x 1,, x ) získá výběrem s vraceím z vzájemě ezávislých pozorováí X, používá se většiou pro odhad vektor p = f 1,, fm, který je estraým odhadem vektoru parametrů p = (p 1,, p m ) Ukážeme si odhady diskrétího rozděleí pravděpodobosti kategoriálí veličiy pomocí gradietu kvaziormy a tzv přímkový odhad Geometrickou iterpretací přímkového odhadu rozumíme odhad ležící a úsečce, která jde z empirického rozděleí pozorovaých četostí f = f 1,, fm a kočí v rozděleí p 0 = ( 1 m,, 1 m) Uvedeé odhady jsou pro růzé kvaziormy dostatečě vhodé pro aplikace a avíc můžeme vhodým postupem zajistit také jejich asymptotickou estraost 71 Gradietí odhad Nechť fukce f : (0, ) R +, kde R + = R,, je kovexí a (0, ), striktě kovexí v bodě u = 1 a abývá v tomto bodě hodoty f(1) = 0 Pokud p = (p 1,, p m ), resp q = (q 1,, q m ) je diskrétí rozděleí pravděpodobosti z pravděpodobostího prostoru (Ω, Σ, P ), resp (Ω, Σ, Q), pak f-divergecí rozdě- 54

55 leí p, q rozumíme fukcioál D f (p, q) = m q j f j=1 ( pj f-divergece má výzam vzdáleosti daých rozděleí a platí: 1 p = q D f (p, q) = 0, D f (p, q) abývá v R + svého maxima p, q jsou ortogoálí, tedy existují takové disjuktí možiy E, F Ω, že p j = 1 a x * E x * F { Nechť S = p R m : p j 0, } m j=1 p j = 1 je možia všech diskrétích rozděleí pravděpodobosti a Ω Kvaziormou rozděleí p S rozumíme f-divergeci q j ) q j = 1 D f (p, p 0 ), kde p 0 = ( 1 m,, 1 m) O fukci f říkáme, že geeruje kvaziormu Df (p, p 0 ) a S Platí, že: 1 D f (p, p 0 ) = 1 m m j=1 f(mp j), D f (p, p 0 ) je ezáporá kovexí fukce a S symetrická vzhledem k proměým p j, kde j = 1,, m, 3 p 0 miimalizuje itegrál všech f-divergecí D f (p, q) a S a má maximálí etropii Hledáme takové rozděleí pravděpodobosti v S, které je ejblíže p 0 a ke kterému se dostaeme od empirického rozděleí ejrychleji Tomu odpovídá miimalizace kvaziormy D f (p, p 0 ) a hledáí rozděleí a křivce ejvětšího spádu v S Nechť D f (p, p 0 ) je kvaziorma a S Pak gradietím odhadem rozděleí pravděpodobosti p S z empirického rozděleí ( f 1,, ) fm rozumíme rozděleí pravděpodobosti p(t) S, že d dt p(t) = gradd f(p(t), p 0 ) t (0, ) a p(0) = f ( = f1,, f ) m Pokud fukce f(u) geeruje kvaziormu D f (p, p 0 ) a S a má výše uvedeé vlastosti a spojitou derivaci f (u) pro každé u (0, ), pak existuje jediý gradiet odhad p(t) = (p 1 (t),, p m (t)) rozděleí pravděpodobosti p S Složky rozděleí pravděpodobosti p jsou t 0, ) partikulárím řešeím soustavy obyčejých difereciálích rovic prvího řádu p 1(t) = f (mp 1 (t)) + f ( m p m 1(t) = f (mp m 1 (t)) + f ( m [ 1 [ m 1 j=1 1 p j (t) m 1 j=1 ] ) p j (t), ] ) 55

56 s počátečími podmíkami p 1 (0) = f 1,, p m 1(0) = f m 1, složka p m (t) = 1 m 1 j=1 p j(t), t (0, ) Test dobré shody ám pomůže ajít hodotu t 0 (0, ) jako hodotu t, kdy ještě ezamítáme hypotézu o vhodosti rozděleí p(t) a hladiě výzamosti α Pro rostoucí parametr t se gradietí odhad p(t) vzdaluje po křivce ejvětšího spádu S od empirického rozděleí k p 0 Odhad p(t 0 ) je ejhorším z odhadů splňujících zvoleé testové kritérium a hladiě výzamosti α, a proto se azývá pesimistický gradietí odhad Nechť f(u) = (u 1), pak D f (p, p 0 ) = 1 m m (mp j 1) je tzv kvadratická kvaziorma Složky gradietího odhadu p(t) = (p 1 (t),, p m (t)) z empirického rozděleí ( f 1,, ) fm pro t (0, ) jsou partikulárím řešeím ehomogeí lieárí soustavy obyčejých difereciálích rovic prvího řádu s kostatími koeficiety a pravými straami j=1 p 1(t) = 4mp 1 (t) mp (t) mp m 1 (t) + m, p (t) = mp 1 (t) 4mp (t) mp m 1 (t) + m, p m 1(t) = mp 1 (t) mp (t) 4mp m 1 (t) + m a s počátečími podmíkami a složka p 1 (0) = f 1,, p m 1(0) = f m 1 p m (t) = 1 m 1 j=1 p j (t), t (0, ) Řešeím této soustavy jsou složky gradietího odhadu p(t) kde c 1 = f 1/ + f / + + f m 1 / 1 m 1 m, c = (m )f 1/ f / f m 1 /, m 1 c 3 = f 1/ + (m )f / f m 1 /, m 1 c m 1 = f 1/ f / + (m )f m / f m 1 / m 1 56

57 p 1 (t) = c 1 e m t +c e mt +1/m, p (t) = c 1 e m t +c 3 e mt +1/m, p m (t) = c 1 e m t +c m 1 e mt +1/m, p m 1 (t) = c 1 e m t c e mt c m 1 e mt +1/m, p m (t) = (m 1)c 1 e m t +1/m, Složky získaého gradietího odhadu z empirického rozděleí jsou asymptoticky estraými odhady složek pozorovaého rozděleí pravděpodobosti p 7 Přímkový odhad Jiým odhadem rozděleí pravděpodobosti p z pozorovaých hodot áhodé kategoriálí veličiy X v prostoru S může být přístup, kdy budeme uvažovat, že se ebudeme pohybovat po křivce ejvětšího spádu jako u gradietího odhadu, ale po úsečce vycházející z empirického rozděleí pozorovaých četostí f = ( f 1,, ) fm a kočící v rozděleí p 0 = ( 1,, 1 m m) Pak odhad p(t) má složky p j (t) = f ( j 1 + m f ) j t, kde t 0; 1, j = 1,, m Složky p j (t) odhadu p(t) rozděleí pravděpodobosti p jsou zřejmě kovexí kombiace odpovídajících složek f a p 0 Teto odhad azveme přímkový odhad, který je totožý se zámým diskrétím jádrovým odhadem s mociými jádry p (x) = f j cm + c 1 + cm Pokud vyjádříme složku p j (t) ve tvaru pro c 0, ) pak platí p j (t) = f j (1 t) + 1 m t, cm = 1 t t = cm = cm 1 + cm a c 1 + cm = t m t = cm 1 + cm Gradietí odhad, resp přímkový odhad, p(t) závisí a hodotě t 0, ), resp t 0, 1 Hodotu t 0 můžeme ajít pomocí testu dobré shody Pokud použijeme 57

58 Pearsoův test, pak t 0 je kořeem elieárí rovice 1 m j=1 f j p j (t) = χ 1 α Při použití Pitmaova-Helligerova testu je t 0 kořeem elieárí rovice ( ) m 8 1 p j (t) f j = χ 1 α j=1 Pro oba případy χ 1 α je (1 α)-kvatil chí kvadrátu rozděleí s m 1 stupi volosti, α je hladia výzamosti testu dobré shody Obě kritéria jsou asymptotická a pro praktické využití požadujeme p j (t 0 ) > 5 pro j = 1,, m Veškeré odhady p(t) pro t 0; t 0 splňují zvoleé kritérium a hladiě výzamosti alespoň α Odhad p(t 0 ) je "ejhorší"z těchto odhadů, tedy můžeme jej ozačit jako pesimistický gradietí, resp přímkový, odhad 73 Ukázka aplikace Nyí si ukážeme, že pro získáí itervalového odhadu můžeme použít metodu bootstrap Praktickou aplikaci si předvedeme a dvou příkladech kategoriálích veliči, u ichž metodou bootstrap získáme itervalové odhady rozděleí pravděpodobosti Budeme se zabývat zejméa přímkovým odhadem K výpočtům ám poslouží MS Excel a Statgraphics Ceturio Falešá kostka Budeme uvažovat hrací kostku o šesti hraách, které si ozačíme klasickým způsobem 1,, 6 Pokud házíme kostkou, tak pozorujeme diskrétí áhodou veličiu X, tedy číslo, které pade Základí prostor je tvoře šesti elemetárími áhodými jevy odpovídající číslům 1,, 6 Pokud se jedá o kostku, která eí falešá, pak pravděpodobostí fukce áhodé veličiy p = (p 1,, p 6 ) = (1/6,, 1/6) My jsme se zaměřili a případ, kdy uvažujeme falešou kostku, tedy kostku, která má těžší strau s číslem 6 Pravděpodobostí fukci zvolíme p = (0, 08; 0, 13; 0, 13; 0, 13; 0, 13; 0, 4) Pozorováí áhodé veličiy X asimulujeme a počítači Vygeerujeme 50 (B) áhodých bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru X Pro každý takto vygeerovaý bootstrapový výběr se spočítají četosti f i * a relativí četosti f i * 58

59 Nyí máme vše potřebé proto, abychom mohli použít Pearsoův test dobré shody Tedy dostaeme B hodot t * 0, které je kořeem elieárí rovice 1 m fj * p * j (t) = χ 1 α j=1 Pro těchto B hodot zkostruujeme bootstrapový t-kofidečí iterval pro parametr θ a hladiě výzamosti α = 0, 1 90% bootstrapové t-kofidečí itervaly pro pravděpodobosti p * i a relativí četosti f * i příslušých stra kostky jsou: p * 1 0, 098; 0, 15, f 1 * 0, 0; 0, 11, p * 0, 11; 0, 166, f * 0, 07; 0, 16, p * 3 0, 18; 0, 177, f 3 * 0, 08; 0, 19, p * 4 0, 17; 0, 175, f 4 * 0, 08; 0, 18, p * 5 0, 117; 0, 168, f 5 * 0, 07; 0, 17, p * 6 0, 09; 0, 358, f 6 * 0, 33; 0, 49 Pokud bychom studovali, jak se chová áhodá veličia, která je složeá z původí hodoty a B bootstrapových hodot, pak bychom dostali statistický soubor o velikosti = 51, pro který zkostruujeme 90% kofidečí iterval pro idividuálí hodotu θ θ t 1 α s ; θ + t 1 1 α s + 1, kde θ postupě ahradíme p i, f i, i = 1,, 6 Takto vziklé veličiy ozačíme p iih, p 1IH 0, 100; 0, 157, p IH 0, 13; 0, 169, p 3IH 0, 16; 0, 177, p 4IH 0, 17; 0, 179, p 5IH 0, 13; 0, 173, p 6IH 0, 199; 0, 347, f 1IH 0, 040; 0, 118, f IH 0, 075; 0, 164, f 3IH 0, 077; 0, 190 f 4IH 0, 08; 0, 191 f 5IH 0, 073; 0, 175 f 6IH 0, 31; 0, 495 f iih, i = 1,, 6 Sestrojíme také pro porováí 90% kofidečí iterval θ t 1 α s 1 ; θ + t 1 α s 1, kde θ postupě ahradíme p i, f i, i = 1,, 6 Takto vziklé veličiy ozačíme p f i i,, i = 1,, 6 p 1 0, 14; 0, 13, p 0, 143; 0, 149, p 3 0, 148; 0, 155, p 4 0, 149; 0, 157, p 5 0, 145; 0, 15, p 6 0, 63; 0, 83, f 1 f f 3 f 4 f 5 f 6 0, 074; 0, 084, 0, 113; 0, 16, 0, 15; 0, 141 0, 19; 0, 144 0, 117; 0, 131 0, 396; 0, 40 59

60 Při sestrojováí kofidečích itervalů v softwaru Statgraphics se objevilo podezřeí a ormalitu dat Podívejme se a grafické zázorěí áhodých veliči Chováí áhodé veličiy je zachyceo a obrázcích 71, 7, 73, 74, 75, 76, 77, 78, 79, 710, 711, 71 Rozděleí, které fituje rozděleí áhodé veličiy p * 1, je ormálí rozděleí, viz obrázek 71 Na obrázku 7 je zachyceo tří parametrické logormálí rozděleí pravděpodobosti áhodé veličiy f 1 * Obr 71: Pravděpodobostí fukce - straa 1 Obr 7: Relativí četosti - straa 1 Rozděleí, které fituje rozděleí áhodé veličiy p *, je ormálí rozděleí pravděpodobosti, viz obrázek 73 Na obrázku 74 je zachyceo ormálí rozděleí pravděpodobosti áhodé veličiy f * Obr 73: Pravděpodobostí fukce - straa Obr 74: Relativí četosti - straa * Rozděleí, které fituje rozděleí áhodé veličiy p * 3, je ormálí rozděleí pravděpodobosti, viz obrázek 75 Na obrázku 76 je zachyceo ormálí rozděleí pravděpodobosti áhodé veličiy f 3 Rozděleí, které fituje rozděleí áhodé veličiy p * 4, je ormálí rozděleí pravděpodobosti, viz obrázek 77 Na obrázku 78 je zachyceo tří parametrické logormálí rozděleí pravděpodobosti áhodé veličiy f 4 * 60

61 Obr 75: Pravděpodobostí fukce - straa 3 Obr 76: Relativí četosti - straa 3 Obr 77: Pravděpodobostí fukce - straa 4 Obr 78: Relativí četosti - straa 4 Rozděleí, které fituje rozděleí áhodé veličiy p * 5, je ormálí rozděleí pravděpodobosti, viz obrázek 79 Na obrázku 710 je zachyceo tří parametrické logormálí rozděleí pravděpodobosti áhodé veličiy f 5 Rozděleí, které fituje rozděleí áhodé veličiy p * 6, je ormálí rozděleí pravděpodobosti, viz obrázek 711 Na obrázku 71 je zachyceo ormálí rozděleí * pravděpodobosti áhodé veličiy f 6 Tedy vidíme, že áhodé veličiy, které jsme dostali z původích a bootstrapových hodot pochází z ormálího ebo tří parametrického logormálího rozděleí Z obrázku 713 je patré, že pokud si pro ilustraci vykreslíme původí pravděpodobosti, průměry bootstrapových výběrů a bootstrapové itervaly odhademe průměrem jejich dolích a horích mezí, tak vidíme, že metodou bootstrap společě s přímkovými odhady se data saží dostat k charakteru dat "obyčejé kostky" Saží se vyrovat k pravděpodobosti 1 6 Na obrázku 714 vidíme vykresleé původí relativí četosti, průměry bootstrapových výběrů a bootstrapové itervaly odhademe průměrem jejich dolích a horích mezí * 61

62 Obr 79: Pravděpodobostí fukce - straa 5 Obr 710: Relativí četosti - straa 5 Obr 711: Pravděpodobostí fukce - straa 6 Obr 71: Relativí četosti - straa 6 Mobilita a místí přeprava v Chrudimi v roce 011 Teď se podíváme a skutečou situaci V Chrudimi v roce 011 proběhl dotazíkový průzkum a mobilitu a místí přepravu Jedalo se o dotazíkový průzkum, kdy bylo vybráo 76 správě vyplěých dotazíků a zjistilo se, že ve vzorku respodetů převládá počet že (55, %) ad muži (44, 8 %) Vyhodotilo se, které věkové skupiy byly ejvíce v průzkumu zastoupey ebo jaký byl důvod cesty (z abízeých pěti možostí) předchozího de, atd Zjišťoval se také použitý prostředek v de koáí průzkumu, pěšky, kolo, autobus, MHD, vlak, motorka a osobí automobil My jsme vycházeli z těchto výsledků, zejméa jsme se zaměřili a kategorii, kdy respodeti použili osobí automobil a průzkum se dál ptal a počet osob v autě Tedy z 78 respodetů jelo v autě 50 % je řidič, 35 % řidič s jedím cestujícím, v 15 % jelo v autě více ež 3 lidi Grafické rozložeí je zobrazeo a obrázku 715, 716 Tedy zaplěí auta je kategoriálí veličia X, která může abývat tří hodot, v autě byl pouze řidič, řidič s jedím cestujícím, více ež 3 lidi Pozorováím kategoriálí veličiy X byl získá áhodý výběr o rozsahu 78 Na základě procetuálího 6

63 Obr 713: Odhad pravděpodobostí p * i vyjádřeí si spočteme četosti f i a relativí četosti f i No a yí se podíváme, co se stae, pokud spojíme přímkový odhad a metodu bootstrap: Mějme áhodý výběr skládající se z pozorováí kategoriálí veličiy X Vygeerujeme 60 (B) áhodých bootstrapových výběrů X * i, i = 1,, B, s opakováím o rozsahu z původího souboru X Pro každý takto vygeerovaý bootstrapový výběr se spočítají četosti f i * relativí četosti f i * Nyí máme vše potřebé proto, abychom mohli použít Pearsoův test dobré shody Tedy dostaeme B hodot t * 0, které je kořeem elieárí rovice 1 m fj * p * j (t) = χ 1 α j=1 Pro těchto B hodot zkostruujeme bootstrapový t-kofidečí iterval pro parametr θ a hladiě výzamosti α = 0, 1 90% bootstrapové t-kofidečí itervaly pro pravděpodobosti p * i a relativí četosti f * i příslušého počtu osob v autě jsou: p * * 1 0, 390; 0, 451, 0, 47; 0, 59, p * 0, 30; 0, 359, p * 3 0, 10; 0, 78, f 1 f * f 3 * 0, 306; 0, 381, 0, 133; 0, 198 Pokud bychom studovali, jak se chová áhodá veličia, která je složeá z původí hodoty a B bootstrapových hodot, pak bychom dostali statistický soubor o a 63

64 Obr 714: Odhad četostí f * i velikosti = 61, pro který zkostruujeme 90% kofidečí iterval pro idividuálí hodotu θ θ t 1 α s ; θ + t 1 1 α s + 1, kde θ postupě ahradíme p iih,, i = 1,, 3 f iih p 1IH 0, 390; 0, 458, p IH 0, 317; 0, 361, p 3IH 0, 0; 0, 7, f 1 IH 0, 444; 0, 544, f IH 0, 303; 0, 383, f 3IH 0, 13; 0, 194 Sestrojíme také pro porováí 90% kofidečí iterval θ t 1 α s 1 ; θ + t 1 α s 1, kde θ postupě ahradíme p i, p 1 0, 40; 0, 49, f 1 0, 488; 0, 500, p 0, 336; 0, 34, p 3 0, 3; 0, 41, f f 3 0, 338; 0, 348, 0, 153; 0, 163 f i, i = 1,, 3 Při sestrojováí kofidečích itervalů v softwaru Statgraphics se objevilo podezřeí a ormalitu dat Podívejme se a grafické zázorěí áhodých veliči Chováí áhodé veličiy je zachyceo a obrázcích 717, 718, 719, 70, 71, 7 Rozděleí, které fituje rozděleí áhodé veličiy p * 1, je ormálí rozděleí, viz obrázek 717 Na obrázku 718 je zachyceo tří parametrické logormálí rozděleí pravděpodobosti áhodé veličiy f 1 * 64

65 Obr 715: Způsob dopravy Obr 716: Počet osob v autě Rozděleí, které fituje rozděleí áhodé veličiy p *, je ormálí rozděleí pravděpodobosti, viz obrázek 719 Na obrázku 70 je zachyceo ormálí rozděleí * pravděpodobosti áhodé veličiy f Rozděleí, které fituje rozděleí áhodé veličiy p * 3, je tří parametrické logormálí rozděleí pravděpodobosti, viz obrázek 71 Na obrázku 7 je zachyceo tří parametrické logormálí rozděleí pravděpodobosti áhodé veličiy f 3 Tedy vidíme, že áhodé veličiy, které jsme dostali z původích a bootstrapových hodot pochází z ormálího ebo tří parametrického logormálího rozděleí * Z obrázku 73 je patré, že pokud si pro ilustraci vykreslíme původí pravděpodobosti, průměry bootstrapových výběrů a bootstrapové itervaly odhademe průměrem jejich dolích a horích mezí, tak vidíme, že metodou bootstrap společě s přímkovými odhady si data zachovávají původí klesající charakter Pro data s ejvětším počtem respodetů, kteří jeli v autě sami, je sloupeček ejvětší 65

66 Obr 717: Pravděpodobostí fukce - pouze řidič Obr 718: Relativí četosti - pouze řidič Obr 719: Pravděpodobostí fukce - řidič+1 cestující Obr 70: Relativí četosti - řidič+1 cestující Na obrázku 74 vidíme vykresleé původí relativí četosti, průměry bootstrapových výběrů a bootstrapové itervaly odhademe průměrem jejich dolích a horích mezí 66

67 Obr 71: Pravděpodobostí fukce - více ež 3 lidi v autě Obr 7: Relativí četosti - více ež 3 lidi v autě Obr 73: Odhad pravděpodobostí p * i 67

68 Obr 74: Odhad četostí f * i 68

Intervalové odhady parametrů některých rozdělení.

Intervalové odhady parametrů některých rozdělení. 4. Itervalové odhady parametrů rozděleí. Jedou ze základích úloh mtematické statistiky je staoveí hodot parametrů rozděleí, ze kterého máme k dispozici áhodý výběr. Nejčastěji hledáme odhady dvou druhů:

Více

Odhady parametrů 1. Odhady parametrů

Odhady parametrů 1. Odhady parametrů Odhady parametrů 1 Odhady parametrů Na statistický soubor (x 1,..., x, který dostaeme statistickým šetřeím, se můžeme dívat jako a výběrový soubor získaý realizací áhodého výběru z áhodé veličiy X. Obdobě:

Více

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna. 6 Itervalové odhady parametrů základího souboru V předchozích kapitolách jsme se zabývali ejprve základím zpracováím experimetálích dat: grafické zobrazeí dat, výpočty výběrových charakteristik kapitola

Více

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti. 10 Cvičeí 10 Statistický soubor. Náhodý výběr a výběrové statistiky aritmetický průměr, geometrický průměr, výběrový rozptyl,...). Bodové odhady parametrů. Itervalové odhady parametrů. Jedostraé a oboustraé

Více

Náhodný výběr 1. Náhodný výběr

Náhodný výběr 1. Náhodný výběr Náhodý výběr 1 Náhodý výběr Matematická statistika poskytuje metody pro popis veliči áhodého charakteru pomocí jejich pozorovaých hodot, přesěji řečeo jde o určeí důležitých vlastostí rozděleí pravděpodobosti

Více

8. Analýza rozptylu.

8. Analýza rozptylu. 8. Aalýza rozptylu. Lieárí model je popis závislosti, který je využívá v řadě disciplí matematické statistiky. Uvedeme jeho popis a tvrzeí, která budeme využívat. Setkáme se s ím jedak v aalýze rozptylu,

Více

12. N á h o d n ý v ý b ě r

12. N á h o d n ý v ý b ě r 12. N á h o d ý v ý b ě r Při sledováí a studiu vlastostí áhodých výsledků pozáme charakter rozděleí z toho, že opakovaý áhodý pokus ám dává za stejých podmíek růzé výsledky. Ty odpovídají hodotám jedotlivých

Více

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu Cvičeí 6: Výpočet středí hodoty a rozptylu, bodové a itervalové odhady středí hodoty a rozptylu Příklad 1: Postupě se zkouší spolehlivost čtyř přístrojů Další se zkouší je tehdy, když předchozí je spolehlivý

Více

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu Cvičeí 6: Bodové a itervalové odhady středí hodoty, rozptylu a koeficietu korelace, test hypotézy o středí hodotě při zámém rozptylu Příklad : Bylo zkoumáo 9 vzorků půdy s růzým obsahem fosforu (veličia

Více

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů: Odhady parametrů polohy a rozptýleí pro často se vyskytující rozděleí dat v laboratoři se vyčíslují podle ásledujících vztahů: a : Laplaceovo (oboustraé expoeciálí rozděleí se vyskytuje v případech, kdy

Více

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky Téma 6.: Základí pojmy matematické statistiky Vlastosti důležitých statistik odvozeých z jedorozměrého áhodého výběru: Nechť X,..., X je áhodý výběr z rozložeí se středí hodotou μ, rozptylem σ a distribučí

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Bodové a itervalové odhady Nechť X je áhodá proměá, která má distribučí fukci F(x, ϑ). Předpokládejme, že záme tvar distribučí fukce (víme jaké má rozděleí) a ezáme parametr

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 4. KAPITOLA STATISTICKÉ CHARAKTERISTIKY 16.10.2017 23.10.2017 Přehled témat 1. Pravděpodobost (defiice, využití, výpočet pravděpodobostí

Více

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU) ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU) Základy teorie pravděpodobosti měřeí chyba měřeí Provádíme kvalifikovaý odhad áhodá systematická výsledek ejistota výsledku Základy teorie pravděpodobosti

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 6. KAPITOLA CENTRÁLNÍ LIMITNÍ VĚTA 6.11.2017 Opakováí: Čebyševova erovost příklad Pravděpodobost vyrobeí zmetku je 0,5. Odhaděte pravděpodobost,

Více

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby. ováí - Hru IV /6 ováí Hru IV Mila RůžR ůžička, Josef Jureka,, Zbyěk k Hrubý zbyek.hruby hruby@fs.cvut.cz ováí - Hru IV /6 ravděpodobostí úavové diagramy s uvažováím předpětí R - plocha ve čtyřrozměrém

Více

Deskriptivní statistika 1

Deskriptivní statistika 1 Deskriptiví statistika 1 1 Tyto materiály byly vytvořey za pomoci gratu FRVŠ číslo 1145/2004. Základí charakteristiky souboru Pro lepší představu používáme k popisu vlastostí zkoumaého jevu určité charakteristiky

Více

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou 4. Testováí statistických hypotéz Úvod Při práci s daty se mohdy spokojujeme s itervalovým či bodovým odhadem parametrů populace. V mohých případech se však uchylujeme k jiému postupu, většiou jde o případy,

Více

V. Normální rozdělení

V. Normální rozdělení V. Normálí rozděleí 1. Náhodá veličia X má ormovaé ormálí rozděleí N(0; 1). Určete: a) P (X < 1, 5); P (X > 0, 3); P ( 1, 135 < x ); P (X < 3X + ). c) číslo ε takové, že P ( X < ε) = 0,

Více

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých 9 Limití věty. V aplikacích teorie pravděpodobosti (matematická statistika, metody Mote Carlo se užívají tvrzeí vět o kovergeci posloupostí áhodých veliči. Podle povahy kovergece se limití věty teorie

Více

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti Předáška VI. Itervalové odhady Motivace Směrodatá odchylka a směrodatá chyba Cetrálí limití věta Itervaly spolehlivosti Opakováí estraé a MLE Jaký je pricip estraých odhadů? Jaký je pricip odhadů metodou

Více

Intervalové odhady parametrů

Intervalové odhady parametrů Itervalové odhady parametrů Petr Pošík Části dokumetu jsou převzaty (i doslově) z Mirko Navara: Pravděpodobost a matematická statistika, https://cw.felk.cvut.cz/lib/ee/fetch.php/courses/a6m33ssl/pms_prit.pdf

Více

NEPARAMETRICKÉ METODY

NEPARAMETRICKÉ METODY NEPARAMETRICKÉ METODY Jsou to metody, dy předmětem testu hypotézy eí tvrzeí o hodotě parametru ějaého orétího rozděleí, ale ulová hypotéza je formulováa obecěji, apř. jao shoda rozděleí ebo ezávislost

Více

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy Měřeí statistické závislosti, korelace, regrese Prof. RNDr. Jaa Zvárov rová,, DrSc. MĚŘENÍZÁVISLOSTI Cílem statistické aalýzy vepidemiologii bývá eje staovit, zda oemocěí závisí a výskytu rizikového faktoru,

Více

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou 1 Zápis číselých hodot a ejistoty měřeí Zápis číselých hodot Naměřeé hodoty zapisujeme jako číselý údaj s určitým koečým počtem číslic. Očekáváme, že všechy zapsaé číslice jsou správé a vyjadřují tak i

Více

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací 3. Náhodý výběr Při sledováí a studiu vlastostí áhodých výsledků pozáme charakter rozděleí z toho, že opakovaý áhodý pokus ám dává za stejých podmíek růzé výsledky. Ty odpovídají hodotám jedotlivých realizací

Více

4. B o d o v é o d h a d y p a r a m e t r ů

4. B o d o v é o d h a d y p a r a m e t r ů 4. B o d o v é o d h a d y p a r a m e t r ů Na základě hodot áhodého výběru z rozděleí určitého typu odhadujeme parametry tohoto rozděleí, tak aby co ejlépe odpovídaly hodotám výběru. Formulujme tudíž

Více

3. Lineární diferenciální rovnice úvod do teorie

3. Lineární diferenciální rovnice úvod do teorie 3 338 8: Josef Hekrdla lieárí difereciálí rovice úvod do teorie 3 Lieárí difereciálí rovice úvod do teorie Defiice 3 (lieárí difereciálí rovice) Lieárí difereciálí rovice -tého řádu je rovice, která se

Více

Závislost slovních znaků

Závislost slovních znaků Závislost slovích zaků Závislost slovích (kvalitativích) zaků Obměy slovího zaku Alterativí zaky Možé zaky Tříděí věcé sloví řady: seřazeí obmě je subjektiví záležitostí (podle abecedy), možé i objektiví

Více

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojího ižeýrství Ústav strojíreské techologie ISBN 978-80-214-4352-5 VYSOCE PŘESNÉ METODY OBRÁBĚNÍ doc. Ig. Jaroslav PROKOP, CSc. 1 1 Fakulta strojího ižeýrství,

Více

Úloha II.S... odhadnutelná

Úloha II.S... odhadnutelná Úloha II.S... odhadutelá 10 bodů; průměr 7,17; řešilo 35 studetů a) Zkuste vlastími slovy popsat, k čemu slouží itervalový odhad středí hodoty v ormálím rozděleí a uveďte jeho fyzikálí iterpretaci (postačí

Více

8. Odhady parametrů rozdělení pravděpodobnosti

8. Odhady parametrů rozdělení pravděpodobnosti Pozámky k předmětu Aplikovaá statistika, 8 téma 8 Odhady parametrů rozděleí pravděpodobosti Zaměříme se a odhad středí hodoty a rozptylu a to dvěma způsoby Předpokládejme, že máme áhodý výběr X 1,, X z

Více

14. B o d o v é o d h a d y p a r a m e t r ů

14. B o d o v é o d h a d y p a r a m e t r ů 4. B o d o v é o d h a d y p a r a m e t r ů Na základě hodot áhodého výběru z rozděleí určitého typu odhadujeme parametry tohoto rozděleí, tak aby co ejlépe odpovídaly hodotám výběru. Formulujme tudíž

Více

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D. Odhady parametrů základího souboru Ig. Mchal Dorda, Ph.D. Úvodí pozámky Základí soubor můžeme popsat jeho parametry, apř. středí hodota μ, rozptyl σ atd. Př praktckých úlohách ovšem zpravdla elze vyšetřt

Více

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n Petra Suryková Modelováí křivek základím prvkem teorie křivek v počítačové grafice křivky polyomiálí Q( t) a a t... a t polyomiálí křivky můžeme sado vyčíslit sado diferecovatelé lze z ich skládat křivky

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ TESTOVÁNÍ STATISTICKÝC YPOTÉZ je postup, pomocí ěhož a základě áhodého výběru ověřujeme určité předpoklady (hypotézy) o základím souboru STATISTICKÁ YPOTÉZA předpoklad (tvrzeí) o parametru G základího

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 3. ÚKOL JB TEST 3. Úkol zadáí pro statistické testy U každého z ásledujících testů uveďte ázev (včetě autora), předpoklady použití, ulovou

Více

P2: Statistické zpracování dat

P2: Statistické zpracování dat P: Statistické zpracováí dat Úvodem - Statistika: věda, zabývající se shromažďováím, tříděím a ásledým popisem velkých datových souborů. - Základem statistiky je teorie pravděpodobosti, založeá a popisu

Více

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D. Odhady parametrů základího souboru Úvodí pozámky Základí soubor můžeme popsat jeho parametry, apř. středí hodota μ, rozptyl atd. Př praktckých úlohách ovšem zpravdla elze vyšetřt celou populac, provádíme

Více

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy POPISNÁ STATISTIKA V PROGRAMU MS EXCEL RYCHLÝ NÁHLED KAPITOLY Žádý výzkum se v deší době evyhe statistickému zpracováí dat. Je jedo,

Více

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model EKONOMETRIE 9. předáška Zobecěý lieárí regresí model Porušeí základích podmíek klasického modelu Metoda zobecěých emeších čtverců Jestliže sou porušey ěkteré podmíky klasického modelu. E(u),. E (uu`) σ

Více

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Pravděpodobnostní model doby setrvání ministra školství ve funkci Pravděpodobostí model doby setrváí miistra školství ve fukci Základí statistická iferece Data Zdro: http://www.msmt.cz/miisterstvo/miistri-skolstvi-od-roku-848. Ke statistickému zpracováí byla vzata pozorováí

Více

Úloha III.S... limitní

Úloha III.S... limitní Úloha III.S... limití 10 bodů; průměr 7,81; řešilo 6 studetů a) Zkuste vlastími slovy popsat postup kostrukce itervalových odhadů středí hodoty v případě obecého rozděleí měřeých dat (postačí vlastími

Více

2. Náhodná veličina. je konečná nebo spočetná množina;

2. Náhodná veličina. je konečná nebo spočetná množina; . Náhodá veličia Většia áhodých pokusů koaých v přírodích ebo společeských vědách má iterpretaci pomocí reálé hodoty. Při takovýchto dějích přiřazujeme tedy reálá čísla áhodým jevům. Proto je důležité

Více

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Přednáška VIII. Testování hypotéz o kvantitativních proměnných Předáška VIII. Testováí hypotéz o kvatitativích proměých Úvodí pozámky Testy o parametrech rozděleí Testy o parametrech rozděleí Permutačí testy Opakováí hypotézy Co jsou to hypotézy a jak je staovujeme?

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Náhodá veličia Tyto materiály byly vytvořey za pomoci gratu FRVŠ číslo 45/004. Náhodá veličia Většia áhodých pokusů má jako výsledky reálá čísla. Budeme tedy dále áhodou veličiou rozumět proměou, která

Více

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním Lekce Itervalový odhad Itervalový odhad je jedou ze stadardích statistických techik Cílem je sestrojit iterval (kofidečí iterval, iterval spolehlivosti, který s vysokou a avíc předem daou pravděpodobostí

Více

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti Katedra pravděpodobosti a matematické statistiky Oborový semiář χ 2 test ezávislosti Petr Míchal 27 listopadu 2017 Situace 2 X {1,, I}, Y {1,, J} Jsou X a Y ezávislé? K dispozici máme áhodý vyběr (X 1,

Více

Pravděpodobnostní modely

Pravděpodobnostní modely Pravděpodobostí modely Meu: QCEpert Pravděpodobostí modely Modul hledá metodou maimálí věrohodosti (MLE Maimum Likelihood Estimate) statistický model (rozděleí) který ejlépe popisuje data. Je přitom k

Více

6. Posloupnosti a jejich limity, řady

6. Posloupnosti a jejich limity, řady Moderí techologie ve studiu aplikovaé fyziky CZ..07/..00/07.008 6. Poslouposti a jejich limity, řady Posloupost je speciálí, důležitý příklad fukce. Při praktickém měřeí hodot určité fyzikálí veličiy dostáváme

Více

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková Základy statistiky Zpracováí pokusých dat Praktické příklady Kristia Somerlíková Data v biologii Zak ebo skupia zaků popisuje přírodí jevy, úlohou výzkumíka je vybrat takovou skupiu zaků, které charakterizují

Více

Matematika I, část II

Matematika I, část II 1. FUNKCE Průvodce studiem V deím životě, v přírodě, v techice a hlavě v matematice se eustále setkáváme s fukčími závislostmi jedé veličiy (apř. y) a druhé (apř. x). Tak apř. cea jízdeky druhé třídy osobího

Více

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ 3..- 4.. 2009 DIVYP Bro, s.r.o., Filipova, 635 00 Bro, http://www.divypbro.cz UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ autoři: prof. Ig. Mila Holický, PhD., DrSc., Ig. Karel Jug, Ph.D., doc. Ig. Jaa Marková,

Více

Kapitola 5 - Matice (nad tělesem)

Kapitola 5 - Matice (nad tělesem) Kapitola 5 - Matice (ad tělesem) 5.. Defiice matice 5... DEFINICE Nechť T je těleso, m, N. Maticí typu m, ad tělesem T rozumíme zobrazeí možiy {, 2,, m} {, 2,, } do T. 5..2. OZNAČENÍ Možiu všech matic

Více

3. Charakteristiky a parametry náhodných veličin

3. Charakteristiky a parametry náhodných veličin 3. Charateristiy a parametry áhodých veliči Úolem této apitoly je zavést pomocý aparát, terým budeme dále popisovat pomocí jedoduchých prostředů áhodé veličiy. Taovýmto aparátem jsou tzv. parametry ebo

Více

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE 1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE V této kapitole se dozvíte: jak je axiomaticky defiová vektor a vektorový prostor včetě defiice sčítáí vektorů a ásobeí vektorů skalárem;

Více

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika 4.11.011 REGRESNÍ DIAGNOSTIKA Chemometrie I, David MILDE Regresí diagostika Obsahuje postupy k posouzeí: kvality dat pro regresí model (přítomost vlivých bodů), kvality modelu pro daá data, splěí předpokladů

Více

Testování statistických hypotéz

Testování statistických hypotéz Testováí statstckých hypotéz - Testováí hypotéz je postup, sloužící k ověřeí předpokladů o ZS (hypotéz a základě výběrových dat (tj. hodot z výběrového souboru. - ypotéza = určtý předpoklad o základím

Více

Komplexní čísla. Definice komplexních čísel

Komplexní čísla. Definice komplexních čísel Komplexí čísla Defiice komplexích čísel Komplexí číslo můžeme adefiovat jako uspořádaou dvojici reálých čísel [a, b], u kterých defiujeme operace sčítáí, ásobeí, apod. Stadardě se komplexí čísla zapisují

Více

17. Statistické hypotézy parametrické testy

17. Statistické hypotézy parametrické testy 7. Statistické hypotézy parametrické testy V této části se budeme zabývat statistickými hypotézami, pomocí vyšetřujeme jedotlivé parametry populace. K takovýmto šetřeím většiou využíváme ám již dobře zámé

Více

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Testujeme hypotézu: proti alternativě. Jednoduché třídění: Y,, Y je áhodý výběr z N(μ, σ ) Y,, Y je áhodý výběr z N(μ, σ ) Y,, Y je áhodý výběr z N(μ, σ ) Testujeme hypotézu: proti alterativě H : μ = μ = = μ H : e všechy středí hodoty μ,, μ jsou si rovy Jedoduché

Více

z možností, jak tuto veličinu charakterizovat, je určit součet

z možností, jak tuto veličinu charakterizovat, je určit součet 6 Charakteristiky áhodé veličiy. Nejdůležitější diskrétí a spojitá rozděleí. 6.1. Číselé charakteristiky áhodé veličiy 6.1.1. Středí hodota Uvažujme ejprve diskrétí áhodou veličiu X s rozděleím {x }, {p

Více

Kvantily. Problems on statistics.nb 1

Kvantily. Problems on statistics.nb 1 Problems o statistics.b Kvatily 5.. Nechť x a, kde 0 < a

Více

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.). STATISTIKA Statistické šetřeí Proveďte a vyhodoťte statistické šetřeí:. Zvolte si statistický soubor. 2. Zvolte si určitý zak (zaky), které budete vyhodocovat. 3. Určete absolutí a relativí četosti zaků,

Více

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce MATEMATICKÁ INDUKCE ALEŠ NEKVINDA. Pricip matematické idukce Nechť V ) je ějaká vlastost přirozeých čísel, apř. + je dělitelé dvěma či < atd. Máme dokázat tvrzeí typu Pro každé N platí V ). Jeda možost

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA Matematka IV PRAVDĚPODOBNOT A TATITIKA Lbor Žák Matematka IV Lbor Žák Regresí aalýza Regresí aalýza zkoumá závslost mez ezávslým proměým X ( X,, X k a závsle proměou Y. Tato závslost se vjadřuje ve tvaru

Více

Číselné charakteristiky náhodných veličin

Číselné charakteristiky náhodných veličin Číselé charakteristiky áhodých veliči Motivace Doposud jsme pozali fukcioálí charakteristiky áhodých veliči (apř. distribučí fukce, pravděpodobostí fukce, hustota pravděpodobosti), které plě popisují pravděpodobostí

Více

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V Předáška 1: Vektorové prostory Vektorový prostor Pro abstraktí defiici vektorového prostoru jsou podstaté vlastosti dvou operací, sčítáí vektorů a ásobeí vektoru (reálým číslem) Tyto dvě operace musí být

Více

7. Odhady populačních průměrů a ostatních parametrů populace

7. Odhady populačních průměrů a ostatních parametrů populace 7. Odhady populačích průměrů a ostatích parametrů populace Jak sme zišťovali v kapitole. e možé pro každou populaci sestroit možství parametrů, které i charakterizue. Pro účely základího pozáí e evýzaměší

Více

MATICOVÉ HRY MATICOVÝCH HER

MATICOVÉ HRY MATICOVÝCH HER MATICOVÉ HRY FORMULACE, KONCEPCE ŘEŠENÍ, SMÍŠENÉ ROZŠÍŘENÍ MATICOVÝCH HER, ZÁKLADNÍ VĚTA MATICOVÝCH HER CO JE TO TEORIE HER A ČÍM SE ZABÝVÁ? Teorie her je ekoomická vědí disciplía, která se zabývá studiem

Více

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení Odhad parametru p biomického rozděleí a test hypotézy o tomto parametru Test hypotézy o parametru p biomického rozděleí Motivačí úloha Předpokládejme, že v důsledku realizace jistého áhodého pokusu P dochází

Více

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý. evost a životost - Hr III EVNOT a ŽIVOTNOT Hr III Mila Růžička, Josef Jreka, Zbyěk Hrbý zbyek.hrby@fs.cvt.cz evost a životost - Hr III tatistické metody vyhodocováí dat evost a životost - Hr III 3 tatistické

Více

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů. Náhodu bychom mohli defiovat jako součet velkého počtu drobých epozaých vlivů. V rámci přírodích věd se setkáváme s pokusy typu za určitých podmíek vždy astae určitý důsledek. Např. jestliže za ormálího

Více

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem Popisá statistika - zavedeí pojmů Popisá statistika - zavedeí pojmů Soubor idividuálích údajů o objektech azýváme základí soubor ebo také populace. Zkoumaé objekty jsou tzv. statistické jedotky a sledujeme

Více

13 Popisná statistika

13 Popisná statistika 13 Popisá statistika 13.1 Jedorozměrý statistický soubor Statistický soubor je možia všech prvků, které jsou předmětem statistického zkoumáí. Každý z prvků je statistickou jedotkou. Prvky tvořící statistický

Více

10.3 GEOMERTICKÝ PRŮMĚR

10.3 GEOMERTICKÝ PRŮMĚR Středí hodoty, geometrický průměr Aleš Drobík straa 1 10.3 GEOMERTICKÝ PRŮMĚR V matematice se geometrický průměr prostý staoví obdobě jako aritmetický průměr prostý, pouze operace jsou o řád vyšší: místo

Více

Metody zkoumání závislosti numerických proměnných

Metody zkoumání závislosti numerických proměnných Metody zkoumáí závslost umerckých proměých závslost pevá (fukčí) změě jedoho zaku jedozačě odpovídá změa druhého zaku (podle ějakého fukčího vztahu) (matematka, fyzka... statstcká (volá) změám jedé velčy

Více

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze limití Náhodé limití Katedra pravděpodobosti a matematické statistiky Uiverzita Karlova v Praze email: praskova@karli.mff.cui.cz 9.4.-22.4. 200 limití Outlie limití limití efiice: Řekeme, že stacioárí

Více

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson STATISTIKA Statistika se těší pochybému vyzameáí tím, že je ejvíce epochopeým vědím oborem. H. Leviso Charakterizace statistického souboru Statistický soubor Prvek souboru Zak prvku kvatitativí teplota,

Více

n-rozměrné normální rozdělení pravděpodobnosti

n-rozměrné normální rozdělení pravděpodobnosti -rozměré ormálí rozděleí pravděpodobosti. Ortogoálí a pozitivě defiití symetrické matice. Reálá čtvercová matice =Ha i j L řádu se azývá ortogoálí, je-li regulárí a iverzí matice - je rova traspoovaé matici

Více

Sekvenční logické obvody(lso)

Sekvenční logické obvody(lso) Sekvečí logické obvody(lso) 1. Logické sekvečí obvody, tzv. paměťové čley, jsou obvody u kterých výstupí stavy ezávisí je a okamžitých hodotách vstupích sigálů, ale jsou závislé i a předcházejících hodotách

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOT A TATITIKA Přpomeutí pojmů,, P m θ, R θ R - pravděpodobostí prostor - parametrcký prostor - parametrcká fukce,, T - áhodý vektor defovaý a pravděpodobostím prostoru,, P θ s hustotou f x,

Více

1. Základy počtu pravděpodobnosti:

1. Základy počtu pravděpodobnosti: www.cz-milka.et. Základy počtu pravděpodobosti: Přehled pojmů Jev áhodý jev, který v závislosti a áhodě může, ale emusí při uskutečňováí daého komplexu podmíek astat. Náhoda souhr drobých, ezjistitelých

Více

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti 1 Základí statistické zpracováí dat 1.1 Základí pojmy Populace (základí soubor) je soubor objektů (statistických jedotek), který je vymeze jejich výčtem ebo charakterizací jejich vlastostí, může být proto

Více

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ PŘÍSPĚVKY THE SCIENCE FOR POPULATION PROTECTION 0/008 MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ STATISTICAL ASSESSMENT

Více

VaR analýza citlivosti, korekce

VaR analýza citlivosti, korekce VŠB-TU Ostrava, Ekoomická fakulta, katedra fiací.-. září 008 VaR aalýza citlivosti, korekce Fratišek Vávra, Pavel Nový Abstrakt Práce se zabývá rozbory citlivosti ěkterých postupů, zahrutých pod zkratkou

Více

vají statistické metody v biomedicíně

vají statistické metody v biomedicíně Statistika v biomedicísk ském m výzkumu a ve zdravotictví Prof. RNDr. Jaa Zvárov rová,, DrSc. EuroMISE Cetrum Ústav iformatiky AV ČR R v.v.i. Proč se používaj vají statistické metody v biomedicíě Biomedicísk

Více

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví Statistika v biomedicísk ském výzkumu a ve zdravotictví Prof. RNDr. Jaa Zvárov rová,, DrSc. EuroMISE Cetrum Ústav iformatiky AV ČR R v.v.i. Literatura Edice Biomedicísk ská statistika vydáva vaá a Uiverzitě

Více

Spojitost a limita funkcí jedné reálné proměnné

Spojitost a limita funkcí jedné reálné proměnné Spojitost a limita fukcí jedé reálé proměé Pozámka Vyšetřeí spojitosti fukce je možo podle defiice převést a výpočet limity V dalším se proto soustředíme je problém výpočtu limit Pozámka Limitu fukce v

Více

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 17. ledna 2019

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 17. ledna 2019 Jméo: Příklad 2 3 Celkem bodů Bodů 0 8 2 30 Získáo 0 Uvažujte posloupost distribucí {f } + = D (R defiovaou jako f (x = ( δ x m, kde δ ( x m začí Diracovu distribuci v bodě m Najděte limitu f = lim + f

Více

Odhad parametrů normálního rozdělení a testy hypotéz o těchto parametrech * Věty o výběru z normálního rozdělení

Odhad parametrů normálního rozdělení a testy hypotéz o těchto parametrech * Věty o výběru z normálního rozdělení Odhad parametrů ormálího rozděleí a testy hypotéz o těchto parametrech * Věty o výběru z ormálího rozděleí Nechť, X, X je áhodý výběr z rozděleí N ( µ, ) X, Ozačme výběrový průměr a = X = i = X i i = (

Více

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13). 37 Metrické vlastosti lieárích útvarů v E 3 Výklad Mějme v E 3 přímky p se směrovým vektorem u a q se směrovým vektorem v Zvolme libovolý bod M a veďme jím přímky p se směrovým vektorem u a q se směrovým

Více

5. Posloupnosti a řady

5. Posloupnosti a řady Matematická aalýza I předášky M. Málka cvičeí A. Hakové a R. Otáhalové Zimí semestr 2004/05 5. Poslouposti a řady 5.1 Limita a hromadé hodoty. Mějme posloupost x ) prvků Hausdorffova topologického prostoru

Více

n=0 a n, n=0 a n = ±. n=0 n=0 a n diverguje k ±, a píšeme n=0 n=0 b n = t. Pak je konvergentní i řada n=0 (a n + b n ) = s + t. n=0 k a n a platí n=0

n=0 a n, n=0 a n = ±. n=0 n=0 a n diverguje k ±, a píšeme n=0 n=0 b n = t. Pak je konvergentní i řada n=0 (a n + b n ) = s + t. n=0 k a n a platí n=0 Nekoečé řady, geometrická řada, součet ekoečé řady Defiice Výraz a 0 a a a, kde {a i } i0 je libovolá posloupost reálých čísel, azveme ekoečou řadou Číslo se azývá -tý částečý součet Defiice Nekoečá řada

Více

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti Úvod Opakováí Poslouposti Příklady Matematika 1 Katedra matematiky, Fakulta stavebí ČVUT v Praze středa 10-11:40 posluchára D-1122 2012 / 13 Úvod Opakováí Poslouposti Příklady Úvod Opakováí Poslouposti

Více

Interval spolehlivosti pro podíl

Interval spolehlivosti pro podíl Iterval polehlivoti pro podíl http://www.caueweb.org/repoitory/tatjava/cofitapplet.html Náhodý výběr Zkoumaý proce chápeme jako áhodou veličiu určitým ám eámým roděleím a měřeá data jako realiace této

Více

Přednášky část 7 Statistické metody vyhodnocování dat

Přednášky část 7 Statistické metody vyhodnocování dat DŽ ředášky část 7 tatistické metody vyhodocováí dat Mila Růžička mechaika.fs.cvt.cz mila.rzicka@fs.cvt.cz DŽ tatistické metody vyhodocováí dat Jak velké rozptyly lze očekávat mezi dosažeými pevostmi ebo

Více

P. Girg. 23. listopadu 2012

P. Girg. 23. listopadu 2012 Řešeé úlohy z MS - díl prví P. Girg 2. listopadu 202 Výpočet ity poslouposti reálých čísel Věta. O algebře it kovergetích posloupostí.) Necht {a } a {b } jsou kovergetí poslouposti reálých čísel a echt

Více

Dynamická pevnost a životnost Statistika

Dynamická pevnost a životnost Statistika DŽ statistika Dyamická pevost a životost tatistika Mila Růžička, Josef Jreka, Zbyěk Hrbý mechaika.fs.cvt.cz zbyek.hrby@fs.cvt.cz DŽ statistika tatistické metody vyhodocováí dat DŽ statistika 3 tatistické

Více

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a) Předáša 7 Derivace a difereciály vyšších řádů Budeme poračovat v ahrazováí fuce f(x v oolí bodu a polyomy, tj hledat vhodé ostaty c ta, aby bylo pro malá x a f(x c 0 + c 1 (x a + c 2 (x a 2 + c 3 (x a

Více