3. Náhodý výběr Při sledováí a studiu vlastostí áhodých výsledků pozáme charakter rozděleí z toho, že opakovaý áhodý pokus ám dává za stejých podmíek růzé výsledky. Ty odpovídají hodotám jedotlivých realizací áhodé veličiy, která popisuje příslušý áhodý proces. Základím pojmem statistiky se tak stává pojem áhodého výběru, který je modelem popsaé situace. Náhodý výběr je uspořádaá -tice áhodý vektor) radom sample) X 1, X 2,..., X ) áhodých veliči X i, 1 i, které jsou ezávislé a mají stejé rozděleí. Je-li F distribučí fukce popisující rozděleí áhodých veliči X i, pak sdružeá distribučí fukce áhodého výběru je rova F x 1, x 2,..., x ) F x 1 ).F x 2 )... F x ). Obdobě pro sdružeou hustotu, resp. pravděpodobostí fukci dostaeme vyjádřeí fx 1 ).fx 2 )... fx ), resp. px 1 ).px 2 )... px ) kde f je hustota resp. p je pravděpodobostí fukce áhodé veličiy X i. Studium vlastostí rozděleí obvykle provádíme pomocí vhodě zvoleé fukce áhodého výběru statistiky statistics). Uvedeme ty, které ejčastěji používáme. Je-li X 1, X 2,..., X ) áhodý výběr, pak ozačujeme a azýváme statistiku: X výběrovým úhrem; X i X i X 1 S 2 1 1 výběrovým průměrem mea); X i X) 2 výběrovým rozptylem variace); s 2 1 X i X) 2 středí kvadratickou odchylkou stadarddeviatio). Pro vyčísleí výběrového rozptylu používáme ěkdy jiého vyjádřeí. Je totiž 1)S 2 Xi X ) 2 [ X 2 i 2X i X + X ) 2 ] X2 i 2X X i + X ) 2 X2 i 2 X ) 2 ) 2 + X X2 i X ) 2 24
Je tedy S 2 1 1 Xi 2 X ) 2 1 1 X 2 i 1 2 X i. Obdobě pro středí kvadratickou odchylku dostaeme s 2 1 Xi 2 X ) 2 1 X 2 i 1 2 X i. Pro uvedeé statistiky platí ěkolik tvrzeí, která si postupě uvedeme. Nejjedodušší z ich se týkají středích hodot a rozptylů, které jsou vyjádřey pomocí obdobých charakteristik původího rozděleí. Nechť je X 1, X 2,..., X ) áhodý výběr z rozděleí, kde EX i ) µ a DX i ) σ 2, pak platí: V1. EX) µ, E X) µ a DX) σ2, D X) σ 2. Je totiž Odtud plye, že E X) E X i ) EX i ) EX) E 1 X) 1 E X) µ. µ µ. Jestliže využijeme ezávislosti áhodých veliči v áhodém výběru, pak dostaeme D X) D X i ) DX i ) σ 2 σ. Odtud plye, že DX) D 1 X) 1 2D X) σ2. V2. ES 2 ) σ 2, Es 2 ) 1 σ2 a DS 2 ) 1 µ 4 3 1) σ4, 3. Úpravou postupě dostaeme Xi X ) 2 [ Xi µ) X µ )] 2 25
E Odtud dostaeme, že [ X i µ) 2 2 X i µ) X µ ) + X µ ) 2 ] X i µ) 2 2 X µ ) X i µ) + X µ ) 2 X i µ) 2 2 X µ ) X µ ) + X µ ) 2 Xi X ) 2 X i µ) 2 X µ ) 2. E X i µ) 2) X ) ) 2 E µ 1)σ 2, když jsme použili postupě skutečostí EX i ) EX) µ, E X i µ) 2) DX i ) σ 2 a E X µ) 2) DX) 1 σ2. Je tedy ES 2 ) σ 2. Sado ahlédeme, že Es 2 ) E 1 S2) 1 σ2. Pozámka. Protože je statistika S 2 odhadem parametru σ 2, je statistika S odhadem směrodaté odchylky σ. Z rovosti DS) ES 2 ) ES)) 2 σ 2 ES)) 2 plye vztah σ 2 ES)) 2 a z ěj dostaeme odhad pro středí hodotu směrodaté odchylky ES) σ. Cetrálí limití věta. Další vlastosti základích statistik áhodého výběru vyplývají z cetrálí limití věty. Pokud áhodý výběr pochází z rozděleí s koečou středí hodotou µ a koečým rozptylem σ 2, má výběrový úhr X v limitě ormálí rozděleí Nµ, σ 2 ) a výběrový průměr X má v limitě ormálí rozděleí Nµ, σ2 ). Tyto skutečosti můžeme zapsat vztahy pro distribučí fukce. Je a X lim P µ σ x Φx), x R lim P X µ x Φx), x R, σ kde Φ je distribučí fukce ormovaého rozděleí N, 1). 26
a Jedoduchým přepisem dostaeme vztahy pro y R lim lim P X y) lim P P X y) lim P X µ σ X µ σ y µ σ Φ y µ Φ σ y µ σ y µ σ, ). Připomeňme, že v případě, že se jedá o áhodý výběr z ormálího rozděleí Nµ, σ 2 ), pak mají uvedeé statistiky ormálí rozděleí z uvedeými parametry. Některé další statistiky. Pro popis vlastostí áhodého výběru můžeme použít statistik, které jsou obdobou obecých či cetrálích mometů pro áhodé veličiy. Zavádíme: A 3 M 3 výběrový koeficiet šikmosti A M 3 3. test symetrie); 2 2 A 4 M 4 3 výběrový koeficiet špičatosti A. 4 test ormality). M k 1 X k i, k 1 k-tý výběrový obecý momet; M k 1 X i X) k, k 1 k-tý výběrový cetrálí momet. Je pak M 1 X a M 2 s 2 1 S2. Obdobě zavádíme statistiky: M 2 2 Uspořádaý áhodý výběr vector of order statistics) dostaeme jestliže seřadíme hodoty áhodého výběru X 1, X 2,..., X ) vzestupě podle velikosti. Dostaeme áhodý vektor X 1), X 2),..., X ) ), kde X i) X ki a {1, 2,..., } {k 1, k 2,..., k }. Je pak X 1) X 2)... X ). Speciálě je X 1) mi{x i ; 1 i } a X ) max{x i ; 1 i }. Náhodou veličiu ω R X ) X 1) azývame variačí rozpětí rage) áhodého výběru. Pro rozděleí jedotlivých souřadic uspořádaého áhodého výběru dostaeme ásledující vztahy. V3. Je-li F distribučí fukce rozděleí, ze kterého je provede áhodý výběr, pak má r tá souřadice X r) uspořádaého áhodého vý- 27
běru X 1), X 2),..., X ) ) rozděleí s distribučí fukcí G r x) P X r) x) ir F i x) [1 F x)] i, x R. i Odvodíme ejprve rozděleí krajích áhodých veliči. Distribučí fukce G áhodé veličiy X ) je dáa vzorcem G x) P X ) x) P X 1 x X 2 x... X x). vzhledem k ezávislosti áhodých veliči X i a shodému rozděleí je G x) F x). Distribučí fukci G 1 áhodé veličiy X 1) dostaeme obdobě ze vztahu G 1 x) P X 1) x) 1 P X 1) x) 1 P X 1 x X 2 x... X x) 1 1 F x)). Jestliže je X r) x, pak mezi hodotami X 1, X 2,..., X ) alezeme alespoň r meších ež je hodota x. Meších ež x jich bude právě i s pravděpodobostí F i x) [1 F x)] i. i Součet těchto pravděpodobostí pro r i určuje hodotu distribučí fukce áhodé veličiy X r). Speciálě pro prví a posledí souřadici dostaeme. V4. Náhodá veličia X 1) mi{x i ; 1 i } má rozděleí určeé distribučí fukcí G 1 x) 1 1 F x)), x R. Pro spojité rozděleí dostaeme její hustotu g 1 x) fx)1 F x)) 1, x R, kde f F je hustota původího rozděleí. Náhodá veličia X ) max{x i ; 1 i } má rozděleí určeé distribučí fukcí G x) F x), x R. 28
V případě spojitého rozděleí je její hustota rova g x) fx)f 1 x), x R. Příklad 1.: Rovoměré rozděleí v itervalu µ h, µ + h). Pak je hustota f, resp. distribučí fukce F, v itervalu µ h, µ + h) dáa vzorci fx) 1 1, resp. F x) x µ + h). 2h 2h Dosazeím do uvedeých vzorců dostaeme: tedy g 1 x) 2h [ 1 1 2h x µ + h) ] 1 g 1 x) 2h) µ + h x) 1, µ h < x < µ + h; g x) 2h) x µ + h) 1, µ h < x < µ + h. Pro středí hodoty těchto áhodých veliči výpočtem dotaeme: EX 1) ) EX ) ) µ+h 2h) xµ + h µ h x) 1 dx 2h) 2h 1) 1 t + µ + h)t 1 dt 1) 2h) 1) 2h) 2h 2h)+1 + 1 t + µ + h)t 1 ) dt x µ h t dx dt + µ + h) 2h) 2h + 1 + µ + h µ 1 + 1 h; µ+h 2h) xx µ + µ h h) 1 dx 2h 1) t + µ h)t 1 dt 2h) 2h t + µ h)t 1 ) dt 2h) 29 x µ + h t dx dt
2h) 2h)+1 + 1 + µ h)2h) 2h + 1 + µ h µ + 1 + 1 h. Pro výpočet rozptylu těchto áhodých veliči musíme ejdříve vyčíslit druhé obecé momety. Je EX 1) ) 2 ) µ+h 2h) µ h x2 µ + h x) 1 dx µ + h x t dx dt 2h) µ + h 2h t)2 t 1 dt) 2h t +1 2µ + h)t + µ + h) 2 t 1 ) dt 2h) 2h) t+2 t+1 2µ + h) + 2 + 1 + µ + h)2t 4h2 2h 2µ + h) + 2 + 1 + µ + h)2. Rozptyl áhodé veličiy vypočteme pomocí vzorce DX 1) ) EX 1) ) 2 ) EX 1) ) 2 2h 4h2 2h 2µ + h) + 2 + 1 + µ + h)2 µ 1 )2 + 1 h µ 2 + 2µh + h 2 4µh + 1 4h2 + 1 + 4h2 + 2 µ2 + 2µh 1 + 1 2µh 1 2 + 1 + 1 + 1 ) + h 2 1 4 + 1 + 4h 2 + 1) 2 + 2). 4 + 2 h2 1)2 + 2) 2 1)2 + 1) 2 Obdobě dostaeme EX ) ) 2 ) µ+h 2h) µ h x2 x µ + h) 1 dx x µ + h t dx dt 3
2h) 2h) 2h) 2h 2h t + µ h)2 t 1 dt t +1 + 2µ h)t + µ h) 2 t 1 ) dt t+2 t+1 + 2µ h) + 2 + 1 + µ h)2t 4h2 2h + 2µ h) + 2 + 1 + µ h)2. Rozptyl áhodé veličiy vypočteme pomocí vzorce DX ) ) EX ) ) 2 ) EX ) ) 2 2h 4h2 2h + 2µ h) + 2 + 1 + µ h)2 µ + 1 )2 + 1 h µ 2 2µh + h 2 + 4µh + 1 4h2 + 1 + 4h2 + 2 µ2 2µh 1 + 1 2µh 1 + 2 + 1 1 + 1 ) + h 2 1 4 + 1 + 4 + 2 h2 1)2 + 2) 2 1)2 + 1) 2 4h 2 + 1) 2 + 2). Jak jsme mohli očekávat rozptyly obou áhodých veliči jsou stejé a středí hodoty jsou symetrické vzhledem ke středí hodotě µ původího rozděleí. S rostoucím počtem prvků výběru dostáváme a lim EX 1)) lim µ h 1 + 1 µ h, lim EX )) lim µ + h 1 + 1 µ + h, lim DX 4h 2 1)) lim DX ) ) lim + 1) 2 + 2). Lze tedy parametry µ a h odhadout pomocí statistik ˆµ 1 2 X ) + X 1) ), ĥ 1 2 X ) X 1) ). Tyto odhady dostaeme později pomocí metody maximálí věrohodosti. 31
Příklad 2.: Expoeciálí rozděleí ExpA; δ). Potom jsou hustota f, resp. distribučí fukce F, dáy vzorci fx) 1 δ e x A δ, resp. F x) 1 e x A δ, x > A. Pro hustotu áhodé veličiy X 1) dostaeme [e x A δ g 1 x) δ x A e δ Pro středí hodotu miima dostaeme EX 1) ) δ A x A) xe δ dx δ ] 1 x A) δ e δ, x > A. xδ x A) e δ δ2 2 e x A) δ A A + δ. K výpočtu rozptylu musíme ejdříve určit druhý obecý momet. Je δ x2 δ x A) e δ EX 1) ) 2 ) δ 2xδ2 2 e x A) δ A x2 e x A) δ dx 2δ3 3 e x A) δ Rozptyl áhodé veličiy vypočteme pomocí vzorce A A 2 + 2Aδ + 2δ2 2. DX 1) ) EX 1) ) 2 ) EX 1) ) 2 A 2 + 2Aδ S rostoucím počtem prvků výběru dostáváme A + 2δ2 + δ )2 δ2 2 2. lim EX 1)) lim A + δ A, lim DX δ 2 1)) lim. 2 Je tedy statistika X 1) mi{x 1, X 2,..., X } odhadem parametru A rozděleí. Je to odhad, který získáme metodou maximálí věrohodosti. Pro statistiku X ) max{x 1, X 2,..., X } dostaeme hustotu g tvaru ve g x) fx)f x) 1 δ x A e δ 1 e ) x A 1 δ, x > A. Středí hodotu vypočteme ze vzorce EX ) ) δ A x A x e δ 1 e ) x A 1 δ dx. 32
Výpočet zjedodušíme pomocí substituce, kterou převedeme vyjádřeí a tvar, který dostaeme pro ormovaé rozděleí Exp; 1) : EX ) ) x A δ t, x A t dx dt, x t A + δt) e t 1 e t ) 1 dt A + δe, jestliže itegrál rozdělíme a dva sčítace a využijeme skutečosti, že fukce g t) e t 1 e t ) 1 je hustotou maximálí souřadice X ) pro ormovaé rozděleí a tedy je její itegrál rove jedé. Zbývá vypočítat výraz E 1) 1 t g t) dt 1) 1 1 k 1 t t e 1 k k t e t e t 1) 1 dt 1 e kt 1) 1 k dt k 1) k te k+1)t dt. Itegrály v součtu vypočteme metodou per partes a dostaeme t e mt dt t e mt m + e mt m dt 1 m 2. Po dosazeí do předchozího vztahu dostaeme pro hodotu E vyjádřeí E 1 k 1 k kde Ψx) d lγx)) dx a γ je Eulerova kostata γ C lim 1)k Ψ + 1) γ, k + 1) 2 Γ x) Γx) 1 + 1 2 + 1 3 +... + 1 l) )., 5772156. Pro Eulerovu fukce Γ platí, že Γx + 1) xγx). Logaritmováím a posléze derivováím dostaeme rovice lγx + 1)) lγx)) + 1 x Γ x + 1) Γx + 1) Γ x) Γx) + 1 x. 33
Postupým použitím rekuretího vztahu dostaeme, že Γ + 1) Γ + 1) Γ 1) Γ1) + Protože řada ve vyjádřeí diverguje je k1 1 k. lim EX )) A + δ lim E, což odpovídá skutečosti, že expoeciálí rozděleí eí shora omezeé. Variačí rozpětí R je ukazatelem, jak jsou pravděpodobé extrémí hodoty v áhodém výběru. K popisu rozděleí áhodé veličiy R musíme použít margiálí hustotu f 1,) dvojice X 1), X ) ), kterou dostaeme obdobě jako při staoveí hustot jedotlivých souřadic. Ozačme si dvojici X 1), X ) ) X, Y ). Pak pro její margiálí distribučí fukce dostaeme vztah F 1,) x, y) P X1) X x X ) Y y). Je-li < x < y <, pak bude podmíka splěa, pokud alezeme alespoň jedu áhodou veličiu X i x a pro všechy je X j y, 1 j. Alespoň jeda, zameá, že jich alezeme 1 až. Jedotlivé možosti se avzájem vylučují a pro právě k, 1 k dostaeme, že k souřadic splí podmíku X i x a k podmíku x < X j y. Pravděpodobost této možosti je rova [F x)] k [F y) F x)] k. Uvážíme-li počet možostí, tak dostaeme její pravděpodobost P k [F x)] k [F y) F x)] k. k Sečteím všech pravděpodobostí dostaeme vzorec pro distribučí fukci F 1,) x, y) k1 P k k1 [F x)] k [F y) F x)] k, x < y. k Přidáme-li do součtu čle pro k dostaeme pomocí biomické věty vyjádřeí F 1,) x, y) [F y)] [F y) F x)], x < y. 34
Pro < y x < Budou všechy souřadice splňovat podmíku X i y x a pro pravděpodobost této možosti dostaeme F 1,) x, y) [F y)], y x. Derivováím dostaeme v příadě spojitého rozděleí vzorec pro margiálí hustotu dvojice X 1), X ) ve tvaru a f 1,) x, y) 2 F 1,) x, y) x y 1)fx)fy)[F y) F x)] 2, x < y f 1,) x, y), x > y. kde f, resp. F jsou hustota, resp. distribučí fukce původího rozděleí. Distribučí fukci G variačího rozpětí vypočteme podle defiice z : Gz) P R z) P X ) X 1) z) P X ) X 1) + z) x+z f 1,)x, y) dy)dx. Použijeme vztah pro derivaci itegrálu jako fukce horí meze a dostaeme, že hustota g variačího rozpětí je dáa vzorcem gz) G z) f 1,)x, x + z) dx 1) fx)fx + z)[f x + z) F x)] 2 dx, z, 2. Příklad 1: Rovoměré rozděleí. Středí hodotu rozpětí vypočteme z dříve uvedeých středích hodot. Je 1)h ER) EX ) ) EX 1) ) µ+ + 1 1)h 2h 1) µ. + 1 + 1 V limitě je v souladu s představou lim ER) 2h. Pro staoveí rozptylu je třeba spočítat hustotu a ebo kovariaci z margiálí hustoty f 1,), eboť jsou áhodé veličiy X 1) a X ) závislé. Určeme hodoty pro rovoměré rozděleí v itervalu, 1). Pro hustotu rozpětí R dostaeme: X, 1); fx) 1, F x) x pro x, 1) z >, < x < 1 < x + z < 1 < x < 1 z, < z < 1 : gz) 1) 1 z z 2 dx 1)z 2 1 z), < z < 1. 35
Variačí rozpětí R má rozděleí beta B 1, 2). Pro jeho středí hodotu dostaeme výpočtem z hustoty ER) 1 1) 1)z 1 1 z) dz 1) z z+1 + 1 1 Pro rozptyl postupě vypočteme ER) 1) 1) 1 z+1 + 1 z+2 + 2 Odtud dostaeme rozptyl 1 z 1 z ) dz 1 1) 1 ) 1 + 1 + 1 z 1 z) dz 1) 1 DR) ER 2 ) ER)) 2 1 1 1) + 1 1 ) + 2 z z +1 ) dz 1) 1)2 + 1) + 2) + 1) 2 1) + 1) + 2) 2 1) + 1) 2 + 2), 3. Pro středí hodotu a rozptyl rozděleí Bp, q) je EX) p p + q a DX) p + q. Po dosazeí hodot p 1 a q 2 dostaeme p + q + 1 shodá vyjádřeí. Pro rovoměré rozděleí v itervalu µ h, µ + h), dostaeme po dosazeí za: fx) 1 2h, F x) 1 2h x µ + h) pro x µ h, µ + h) vzorec pro hustotu ve tvaru 1 µ+h z gz) 1) x + z µ + h x + µ h) 2 dx 2h) µ h 1) 2h) z 2 2h z), < z < 2h. Odtud můžeme vypočítat středí hodotu a rozptyl. Lze ovšem využít vztahů pro středí hodotu a rozptyl při lieárí trasformaci, 1) µ h, µ + h) Y µ h + 2hX a dostaeme: ER ) µ h + 2hEX ) ) µ + h + 2hEX 1) 2h 1 + 1 36
a DR ) 4h 2 DR) 8h2 1) + 1) + 2). Podle očekáváí je lim ER) 2h. Pro popis závislosti áhodých veliči X 1) a X ) využijeme koeficiet kovariace. Výpočet provedeme pro rozděleí v itervalu, 1) a pak využijeme vztahů pro lieárí trasformaci. Margiálí hustotu dvojice X 1), X ) ) dostaeme po dosazeí za fx) 1, F x) x pro x, 1) : Odtud dostaeme f 1,) x, y) 1)y x) 2, < x < y < 1 1 y EX 1) X ) ) 1) když postupě použijeme kroky y xy x) 2 dx a 1 Odtud je y x t, y dx dt, y xyy x) 2 ) dx y y+1 dy 1 + 2. dy 1 + 2 yt 2 t 1 ) dt covx 1), X ) ) EX 1) X ) ) EX 1) )EX ) ) 1 + 2 + 1) 1 2 + 1) 2 + 2) y 1) Ze vzorce covαx + β, αy + β) α 2 covx, Y ) dostaeme pro kovariaci v případě obecého rozděleí vztah covx 1), X ) ) 4h 2 + 1) 2 + 2), ze kterého vyplývá, že jsou áhodé veličiy X 1) a X ) závislé. Z rostoucím rozsahem výběru klesá míra lieárí závislosti mezi ejmeší a ejvětší hodotou áhodého výběru. 37
Příklad 2: Expoeciálí rozděleí. Středí hodotu rozpětí vypočteme z dříve uvedeých středích hodot. Je ER) EX ) ) EX 1) ) A + δe A + δ ) δ E 1 ). Odtud dostaeme, že lim ER). Pro výpočet dalších charakteristik musíme vyjádřit hustotu rozpětí. Pro jedoduchost volíme A a δ 1. Pro jié hodoty parametrů provedeme příslušou lieárí trasformaci Y A + δ X. Pro zvoleé hodoty parametrů je fx) e x a F x) 1 e x, x >. Pro hustotu rozpětí R dostaeme vzorec gz) 1) e x e x z e x e x z) 2 dx 1)e z 1 e z) 2 e x dx 1) e z 1 e z) 2, z >. Porováím s hustotou maximálí souřadice zjistíme, že se jedá o totéž rozděleí, ale s parametrem 2 místo 1. Pro středí hodotu tak můžeme použít i získaý vzorec ER) Ψ) γ, ER ) δer). Příklad 3: Normovaé ormálí rozděleí. Pro hustotu g rozpětí dostaeme vzorec 1) gz) x 2 +x+z) 2 2π e 2 Φx + z) Φx)) 2 dx, z >, kde Φ je distribučí fukce ormovaého ormálího rozděleí. Expoet si můžeme vyjádřit ve tvaru a po substituci x + z 2 x 2 + xz + x z2 2 + z ) 2 + z2 2 4 w dostaeme vzorec ve tvaru 1) gz) e z2 /4 Φw + z/2) Φw z/2)) 2 dw, z >. 2π e w2 Výpočet středích hodot a rozptylů je uté provést umericky a úloha vyřaduje podrobější aalýzu průběhu itegradu. Pro praktické potřeby je vhodější alézt příslušé hodoty ve statistických tabulkách. 38