Náhodý výběr 1 Náhodý výběr Matematická statistika poskytuje metody pro popis veliči áhodého charakteru pomocí jejich pozorovaých hodot, přesěji řečeo jde o určeí důležitých vlastostí rozděleí pravděpodobosti áhodé veličiy ebo áhodého vektoru z jejich hodot získaých měřeím, statistickým šetřeím, epřímým pozorováím apod. Tyto metody jsou v podstatě zaměřey a řešeí dvou základích úloh matematické statistiky: odhady parametrů a rozděleí, testováí statistických hypotéz o parametrech a rozděleích. Tyto úlohy se dle potřeby kombiují, když apř. odhadujeme ebo testujeme číselé charakteristiky rozděleí, vyšetřujeme závislosti áhodých veliči apod. Metody matematické statistiky jsou založey a ásledujících pojmech. 1. Pojmy Opakujeme-li -krát ezávisle pokus, jehož výsledkem je hodota áhodé veličiy X s distribučí fukcí F (x, ϑ), kde ϑ je reálý parametr (případě vektor parametrů aebo jejich fukce) daého rozděleí pravděpodobosti, pozorujeme vlastě áhodý vektor X = (X 1,..., X ) a předpokládáme, že jeho složky jsou ezávislé áhodé veličiy X i se stejou distribučí fukcí (pravděpodobostí fukcí aebo hustotou pravděpodobosti) jako má pozorovaá áhodá veličia X. Náhodý vektor X se azývá áhodý výběr (z áhodé veličiy X ebo z jejího rozděleí pravděpodobosti) a číslo je rozsah áhodého výběru. Aalogicky defiujeme áhodý výběr z áhodého vektoru.. Vlastosti Náhodý výběr X = (X 1,..., X ) má simultáí distribučí fukci a simultáí pravděpodobostí fukci F (x;ϑ) = F (x 1,..., x ;ϑ) = p (x;ϑ) = p (x 1,..., x ;ϑ) = F (x i ;ϑ) p (x i ;ϑ), kde p (x i ;ϑ) je pravděpodobostí fukce i-té složky, i = 1,...,, jestliže pozorovaá áhodá veličia X je diskrétí, resp. simultáí hustotu pravděpodobosti f (x;ϑ) = f (x 1,..., x ;ϑ) = f (x i ;ϑ), kde f (x i ;ϑ) je hustota pravděpodobosti i-té složky X i, jestliže pozorovaá áhodá veličia X je spojitá. 3. Pojmy Číselý vektor x = (x 1,..., x ), který získáme při realizaci áhodého výběru, kde x i je pozorovaá hodota složky, i = 1,...,, je statistický soubor s rozsahem. Možia všech hodot áhodého výběru, tj. možia všech statistických souborů, tvoří výběrový prostor. 4. Pozámka Statistický soubor je jiak řečeo pozorovaá hodota áhodého výběru, což zameá, že při opakovaých realizacích áhodého výběru obdržíme obecě (a áhodě) růzé statistické soubory. Zpracováí statistického souboru je popsáo v kapitole Popisá statistika. 5. Příklad Jestliže áhodá veličia Xmá biomické rozděleí pravděpodobosti Bi (1, p) s parametrem p (0; 1), má pravděpodobostí fukci p(x) = p x (1 p) 1 x, kde x {0; 1}. Náhodý výběr z tohoto rozděleí pravděpodobosti má simultáí pravděpodobostí fukci x i p(x 1,..., x ) = p (1 p) x i,
Náhodý výběr kde x i {0; 1}. Výběrový prostor je možia všech statistických souborů x = (x 1,..., x ), tj. možia {0; 1}. 6. Pojmy Fukce áhodého výběru T (X 1,..., X ) se azývá výběrová charakteristika ebo statistika. Její hodota a statistickém souboru t = T (x 1,..., x ) je empirická charakteristika ebo pozorovaá hodota statistiky T. 7. Pozámka Výběrovou charakteristiku (statistiku) T (a tím také empirickou charakteristiku t) volíme tak, abývala a výběrovém prostoru s velkou pravděpodobostí hodot blízkých ezámé ebo předpokládaé teoretické charakteristice, apř. parametru ϑ pozorovaé áhodé veličiy X. Z toho vyplývá základí pricip statistické idukce v matematické statistice, který je schematicky vyjádře a Obrázku 1. Obrázek 1: Základí pricip statistické idukce 8. Pojmy Používáme zejméa tyto výběrové charakteristiky: 1. výběrový průměr X = 1. výběrový rozptyl S = 1 X i, ( Xi X ), 3. výběrová směrodatá odchylka S = S, 1 (X i X)(Y i Y ) 4. výběrový koeficiet korelace R = S(X) S(Y ) pro áhodý výběr z áhodého vektoru (X, Y ), kde S (X) a S (Y ) jsou výběrové směrodaté odchylky áhodých veliči X a Y. 9. Vlastosti Základí vlastosti výběrového průměru X a výběrového rozptylu S jsou: 1. Jestliže pozorovaá áhodá veličia X má středí hodotu E (X), pak E ( X ) = E (X).. Jestliže pozorovaá áhodá veličia X má rozptyl D (X), pak D ( X ) = D (X), σ ( X ) = σ (X), E ( S ) = 1 D (X). Hodoty výběrových charakteristik jsou empirické charakteristiky, které získáme po zpracováí statistického souboru. Např. aritmetický průměr x je pozorovaá hodota výběrového průměru apod. Tyto
Náhodý výběr 3 hodoty jsou však áhodé, jiak řečeo empirické charakteristiky se při opakovaých realizacích áhodého výběru áhodě měí. Avšak z předcházejícího plye, že apř. pro rozptyl výběrového průměru D ( X ) 0, takže pro dostatečě velké je takřka jistě aritmetický průměr blízký ezámé středí hodotě. Přitom ale σ ( X ) 0 pouze s rychlostí 1/, což zameá, že apř. pro dosažeí dvojásobé přesosti aproximace ezámé středí hodoty E (X) aritmetickým průměrem x musíme zvýšit rozsah áhodého výběru čtyřikrát atd. Ve statistické literatuře se hovoří o tzv. statistické kletbě. 10. Pozámka Protože 1 < 1, je E ( S ) < D (X), takže empirické hodoty s se vzhledem ke skutečému (a obvykle ezámému) rozptylu častěji vychylují doleva (do meších hodot) od D (X). Proto se mohdy defiuje výběrový rozptyl Ŝ ve tvaru Ŝ = 1 S = 1 1 ( Xi X ) ) a pro teto výběrový rozptyl je E (Ŝ = D (X). Odpovídající rozptyl statistického souboru pak je ŝ = 1 s = 1 1 (x i x). Statistika Ŝ má však větší rozptyl ež statistika S, ale pro velká (řádově 100 a více) je rozdíl mezi těmito statistikami zaedbatelý. Aalogicky defiujeme výběrovou směrodatou odchylku Ŝ a směrodatou odchylku statistického souboru ŝ. Růzé defiice uvedeých charakteristik je uto respektovat při zpracováí statistického souboru a PC pomocí statistických programů a také ve vzorcích jak pro odhady parametrů, tak i pro testováí statistických hypotéz. Stochastické vlastosti ejčastěji používaých výběrových charakteristik vyjadřují jejich ásledující tzv. statistická rozděleí pravděpodobosti. Potřebé hodoty těchto rozděleí jsou tabelováy aebo se počítají a PC pomocí statistických programů (apř. Statistica, S-Plus, Statgraphics, QCExpert, Miitab, Adstat aj.) ebo statistických fukcí (apř. Excel). 1. Normálí rozděleí pravděpodobosti N ( µ, σ ), kde µ, σ jsou reálá čísla, σ > 0, áhodé veličiy X (viz kapitolu Rozděleí pravděpodobosti pro aplikace), zejméa pak ormovaé ormálí rozděleí pravděpodobosti N (0; 1) áhodé veličiy U = X µ σ s distribučí fukcí Φ (u ), jejíž hodoty jsou tabelováy v tabulce T1. Pro kvatily u P je u P = u 1 P, kdep (0; 1). Tabulka T1 také obsahuje ejčastěji používaé kvatily pro P = 0, 95; 0, 975; 0, 99; 0, 995. Normálí rozděleí má řadu velmi důležitých vlastostí. Např. jestliže ezávislé áhodé ( veličiy X i mají rozděleí N(µ i ; σi ) pro, pak áhodá veličia ) X i má ormálí rozděleí N µ i ;. σi. Pearsoovo rozděleí (chí-kvadrát rozděleí) χ (k ) s k stupi volosti, kde k je přirozeé číslo, má hustotu pravděpodobosti f(x) = { 1 k Γ( k ) e x x k 1 pro x (0; ), 0 pro x ( ; 0, kde Γ (z ) = t z 1 e t dt, z > 0, je tzv. gama fukce. Graf hustoty pravděpodobosti Pearsoova 0 rozděleí, které je kladě asymetrické, je zázorě a Obrázku a jeho základí číselé charakteristiky jsou: E (X) = k, D (X) = k, A (X) = 4/ k > 0. Jestliže U 1,..., U k jsou ezávislé áhodé veličiy s ormovaým ormálím rozděleím, pak áhodá veličia k Ui má Pearsoovo rozděleí. Kvatily χ P tohoto rozděleí jsou tabelováy v tabulce T3.
Náhodý výběr 4 Obrázek : Grafy hustoty pravděpodobosti Pearsoova rozděleí χ (k) 3. Studetovo rozděleí (t rozděleí) S (k ) s k stupi volosti, kde k je přirozeé číslo, má hustotu pravděpodobosti f(x) = Γ ( ) k+1 ( πkγ k ) ) k+1 (1 + x, x ( ; ). k Graf hustoty pravděpodobosti Studetova rozděleí, které je symetrické vzhledem k x = 0, je zázorě a Obrázku 3 a jeho základí číselé charakteristiky jsou: E (X) = 0 pro k > 1, D (X) = k/(k ) pro k >, A (X) = 0 pro k > 3, x 0,5 = 0. Obrázek 3: Grafy hustoty pravděpodobosti Studetova rozděleí S(k) Studetovo rozděleí s jedím stupěm volosti je tzv. Cauchyovo rozděleí. Pro k koverguje Studetovo rozděleí k ormovaému ormálímu rozděleí N (0; 1). Jestliže U a V jsou ezávislé áhodé veličiy, přičemž U má ormovaé ormálí rozděleí a V má Pearsoovo rozděleí χ (k), pak áhodá veličia U V k má Studetovo rozděleí S(k). Kvatily tp tohoto rozděleí jsou tabelováy v tabulce T a pro je t P = t 1 P. 4. Fisherovo-Sedecorovo rozděleí (F rozděleí) F (k 1, k ) s k 1, k stupi volosti, kde jsou přirozeá čísla, má hustotu pravděpodobosti
Náhodý výběr 5 kde B (z 1, z ) = ( 1 f(x) = k1 ) ( ) k1 ( ) k k 1 B, k k x k 1 1 +k 1 1 + k1 k x pro x (0; ), 0 pro x ( ; 0, 1 0 t z1 1 (1 t) z 1 dt = Γ(z1)Γ(z) Γ(z 1+z ), z 1 > 0, z > 0, je tzv. beta fukce. Graf hustoty rozděleí, které je kladě asymetrické, je zázorě a Obrázku 4 a jeho základí číselé charakteristiky jsou: E (X) = k /(k ) pro k >, D (X) = k (k1+k ) pro k k 1(k ) (k > 4. 4) Obrázek 4: Grafy hustoty pravděpodobosti Fisherova-Sedecorova rozděleí F(k 1, k ) Jestliže V 1 a V jsou ezávislé áhodé veličiy, přičemž V 1 má Pearsoovo rozděleí χ (k 1 ) a V má Pearsoovo rozděleí χ (k ), pak áhodá veličia V1/k1 V /k má Fisherovo-Sedecorovo rozděleí. Kvatily F P (k 1, k ) tohoto rozděleí jsou tabelováy v tabulce T4 a pro P (0; 1) je F P (k 1, k ) = = 1/F 1 P (k, k 1 ). Nejčastěji řešeé úlohy při aplikacích metod matematické statistiky se týkají pozorovaých áhodých veliči s ormálím rozděleím pravděpodobosti. Využíváme přitom ásledující vlastosti tohoto rozděleí. 11. Vlastosti Jestliže pozorovaá áhodá veličia Xmá ormálí rozděleí N(µ; σ ), pak platí: 1. X má ormálí rozděleí N(µ; σ ),. X µ σ má ormálí rozděleí N(0; 1), 3. X µ S 1 má Studetovo rozděleí S ( 1), 4. S σ má Pearsoovo rozděleí χ ( 1).
Náhodý výběr 6 1. Vlastosti Jestliže pozorovaá áhodá veličia Xmá ormálí rozděleí N ( µ (X), σ (X) ) a pozorovaá áhodá veličia Y má ormálí rozděleí N ( µ (Y ), σ (Y ) ), Xa Y jsou ezávislé a také áhodé výběry (X 1,..., X 1 ), (Y 1,..., Y ) jsou ezávislé, pak statistika: 1.. X Y (µ(x) µ(y )) σ (X) + σ (Y ) 1 má ormálí rozděleí, X Y (µ(x) µ(y )) 1 ( 1+ ) 1S (X)+ S (Y ) 1+ má pro σ (X) = σ (Y ) Studetovo rozděleí S ( 1 + ), 3. 1S (X) 1 1 S (Y ) 1 má pro σ (X) = σ (Y ) Fisherovo-Sedecorovo rozděleí F( 1 1, 1). 13. Vlastosti Jestliže X 1, X,... je posloupost ezávislých áhodých veliči s libovolým stejým rozděleím pravděpodobosti (apř. i asymetrickým ebo diskrétím), které má středí hodotu µ 0 a směrodatou odchylku σ 0, pak posloupost áhodých veliči 1 X i µ 0 σ 0 koverguje (v distribuci) k áhodé veličiě U s ormovaým ormálím rozděleím N(0; 1). Z předcházející vlastosti plye, že při dostatečě velkém rozsahu áhodého výběru můžeme rozděleí pravděpodobosti výběrového aritmetického průměru pro libovolou pozorovaou ( ) áhodou veličiu X se středí hodotou a rozptylem σ0 aproximovat ormálím rozděleím N µ 0 ; σ 0. To také zameá, že při dostatečě velkém rozsahu statistického souboru má smysl aproximovat apř. středí hodotu µ 0 aritmetickým průměrem x. 14. Příklad Rozděleí pravděpodobosti výběrového průměru X pro áhodý výběr z biomického rozděleí pravděpodobosti (viz Příklad 5) lze pro dostatečě velký rozsah výběru dobře aproximovat rozděleím ormálím N(p; p(1 p) ), eboť µ 0 = p a σ0 = p(1 p). Tato aproximace rozděleí pravděpodobosti výběrového průměru je dostačující pro > 9 p(1 p).