POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Budu velmi vděčý každému, kdo mě v případě podezřeí a jakoukoliv chybu upozorí cvičeí radomized respose Warerova metoda viz Warer (965) Metoda ezávislé otázky viz Greeberg et al (969) Metoda zjišťováí kvatitativího zaku Greeberg et al (97) cvičeí Prostý áhodý výběr (PNV) s opakovaím vs bez opakováí Začeí U celá populace obsahující jedotky, které si očíslujeme jako,, N, tedy U = {,, N} y,, y N hodoty sledovaého zaku v populaci U s výběr z populace U Ȳ populačí průměr, tj Ȳ = N k U y k Y populačí úhr, tj Y = k U y k = N Ȳ velikost výběru K(s) počet růzých jedotek ve výběru ȳ s výběrový průměr, tj ȳ s = K(s) k s y k σy populačí rozptyl, tj σy = N k U (y k Ȳ ) Sy (korigovaý) populačí rozptyl, tj Sy = N k U (y k Ȳ ) s y výběrový rozptyl, tj s y = K(s) k s (y k ȳ s ) Prostý áhodý výběr s vraceím Nechť Y i (i =,, ) je výsledek i-tého tahu, tj P (Y i = y k ) = N, pro k =,, N Můžeme uvažovat ásledující odhady populačího průměru Ȳ : () ˆt = i= Y i, tj jedotky, které jsme vybrali vícekrát, započítáme i do průměru vícekrát; () ˆt = K(s) k s y k (= ȳ s ), tj uděláme průměr pouze přez růzé jedotky; (3) ˆt 3 = N π k s y k, kde π je pravděpodobost zahrutí libovolé pevé jedotky do výběru, tj π = ( /N) Literatura: str 0 3 v Särdal et al (99); Hodges et al (983)
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Prostý áhodý výběr bez vraceí Odhad populačího průměru je ȳ s Teto odhad má rozptyl který odhadujeme pomocí var(ȳ s ) = ( N ) N k U var(ȳ s ) = f s y (y k Ȳ ) = f S y, Poměr f = N azýváme koečostí ásobitel Coditioal iferece přístup k PNV s vraceím Uvažujeme pouze růzé jedotky Na PNV s vraceím se pak díváme jako a PNV bez vraceí o rozsahu = K(s) 3cvičeí Prostý áhodý výběr bez opakováí, kofidečí itervaly, boostrap Úhr odhademe pomocí vzorce ŶU = Nȳ s Teto odhad má rozptyl var(ŷ ) = N ( N ) N k U (y k Ȳ ) = N f S y, který odhadujeme pomocí var(ŷ ) = N f s y Takže přibližý kofidečí iterval (pro úrh Y ) založeý a ormálí aproximaci je [ ] Ŷ u α/ var( Ŷ ), Ŷ + u α/ var( Ŷ ), kde u α je α-kvatil ormovaého ormálího rozděleí Pro opatrost eí od věci ahradit kvatil u α kvatilem t-rozděleí o ( )-stupích volosti Cochraovo pravidlo pro dobré fugováí ormálí aproximace (viz Cochra (977), str4): > 5 G, kde G = NS 3 y (y k Ȳ )3 Literatura k bootstrapu Základí dvě kihy jsou Efro ad Tibshirai (993) a Daviso ad Hikley (997) Těmto kihám odpovídají také kihovy v R-ku bootstrap a boot Modifikace bootstrapu pro výběry z koečých populací lze ajít apř v Shao (003) k U
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 3 4cvičeí kofidečí itervaly pro poměrový odhad Nechť hodoty y k abývají pouze hodot ula ebo jeda Ozačme N = k U y k a = k s y k Potom populačí podíl P = N N odhadujeme pomocí ˆp = Rozptyl tohoto odhadu odhadujeme pomocí var(ˆp) = ( N ) N P ( P ) var(ˆp) = ( N ) ˆp( ˆp) Literatura: Cochra (977), str 50 a ásledující 5cvičeí Systematický výběr Literatura: Cochra (977), str 60 88, Särdal et al (99), str 73 85 Systematický výběr s růzými pravděpodobostmi Jestliže máme předepsáy psti zahrutí π = (π,, π N ), pak můžeme postupovat podle ásledujícího algoritmu: Z vektoru π vytvoříme kumulativí součty a přidáme C 0 = 0 (π, π + π, π + π + π 3,, π +, π N ) Ozač = (C,, C N ) Geerujeme U z rovoměrého rozděleí a [0, ] 3 Spočteme (U, U +, U +,, U + ) Ozač = (ξ,, ξ ) 4 Vybereme jedotku Y i, právě když existuje ξ j takové, že ξ j (C i, C i ] Pokud je ebezpečí, že v uspořádáí jedotek a sezamu je určitá periodicita, pak se doporučuje přidat 0krok, ve kterém áhodě zpermutujeme pořadí jedotek v sezamu Pak se mluví o záhoděém systematickém výběru I když lze velmi kopmlikovaě dopočítat pravděpodobosti zahrutí π kl pro dvojice prvků, edoporučuje se tyto hodoty používat v Yates-Grudyho formuli pro odhad rozptylu (5) Mohem rozumější se jeví využít doporučeí ze str 40 ze skript Vorlíčková (985), kde se avrhuje aproximovat π kl jako v případě zamítacího výběru, tj Bude probrá později [ ] π kl = π k π l ( π k) ( π l ), kde = N N π k ( π k ) k=
4 POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Výběry s estejými pravděpodobostmi obecě π k pravděpodobost zahrutí k-té jedotky π kl pravděpodobost zahrutí k-té a zároveň l-té jedotky, spec π kk = π k Horvitz-Thompsoův odhad úhru : () Ŷ HT = k s y k π k Horvitz-Thompsoova formule pro rozptyl odhadu úhru : () var(ŷht ) = k U yk ( π k ) + π k Odhad rozptylu úhru založeý a H-T formuli (3) var(ŷht ) = k s yk πk k,l U, k l ( π k ) + k,l s, k l y k π k y l π l (π kl π k π l ) y k π k y l π l π kl π k π l π kl V případě výběr s pevým rozsahem je H-T formule pro rozptyl () ekvivaletí Yates- Grudyho formuli pro rozptyl odhadu úhru : (4) var(ŷht ) = (π k π l π kl ) k U l U Odhad rozptylu úhru založeý a Y-G formuli : (5) var(ŷht ) = k s l s π k π l π kl π kl ( yk y ) l π k π l ( yk y ) l π k π l V případě, že si ejsme jisti, že pravděpodobosti zahrutí π k jsou úměré hodotám y k, pak se doporučuje použít alterativího odhadu úhru Ŷ a = N k s y k/π k = Ṋ y k, N π k k s /π k k s kde ˆN = k s /π k Teto odhad sice eí estraý, ale je apř ekvivariatí vůči posuutí 6cvičeí Poissoský výběr Každou jedotku vybíráme ezávisle a ostatích a vybereme ji s pravděpodobostí P k Rozsah výběru K(s) je tedy áhodá veličia pro kterou platí: E K(s) = N P k, var(k(s)) = k= kde φ(x) je hustota N(0, ) N k= ( P k ( P k ), P (K(s) = k) φ var(k(s)) ) k E K(s) var(k(s)),
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 5 Jelikož pro Poissoův výběr platí π k = P k a π kl = π k π l = P k P l, dostáváme dosazeím do obecých vzorečků pro výběr s estejými pravděpodobostmi ásledující var(ŷht ) = k s y k P k ( P k ) Protože zde emáme pevý rozsah výběru odhad rozptylu odhadu úhru z H-T formule (3): var(ŷht ) = k s y k P k ( P k ) Problémem H-T odhadu je, že ebere v potaz áhodou velikost výběru Proto se pro Poissoův výběr doporučuje ásledující odhad Ŷ HTkor = K(s) k s y k P k Podmíěý poissoovský výběr Při tomto výběru provádíme obyčejý Poissoovský výběr tak dlouho, až se ám podaří vybrat předepsaý počet jedotek Nyí všal již obecě eplatí, že π k = P k a π kl = π k π l = P k P l Provádím-li tedy podmíěý poissoovský výběr s pravděpodobostmi P,, P N, je třeba vypočítat pravděpodobosti zahrutí π,, π N Přesý výpočet je začě obtížý, proto můžeme využít ásledující aproximaci π k = P k ( ( P Pk )( P k ) d + o( d ) ), kde d = N k= P k ( P k ), P = d N Pk ( P k) Pro použití rozptylových vzorců (4) a (5) potřebujeme zát pravděpodobosti zahrutí dvojic π kl Opět ejsme schopi tyto hodoty přesě vypočítat Proto se používá ásledující aproximace, která je drobou modifikací aproximace z Vorlíčková (985), str 8 (viz Čermák (980), str 64, rce (3)) (6) π kl = π k π l [ ( π k) ( ] π l) + o( ), kde = Zamítací výběr N k= k= π k ( π k) Provedu výběr o rozsahu s estejými pstmi (α = (α,, α N )) s vraceím Pokud emám ve výběru všechy prvku růzé, výběr zamítu a zkusím udělat ový výběr Pro provedeí výběru tedy potřebuju mít α k pravděpodobost vybráí k-té jedotky v každém tahu (tj N k= α k = )
6 POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Pokud pro k =,, N platí, že α k = b P k P k, kde b je vhodá kostata, pak je zamítací výběr ekvivaletí s podmíěým poissoovským výběrem Mám-li předepsáy pravdepodobosti zahrutí π = (π,, π N ) (0 < π k < ), pak mohu odpovídající pravděpodobosti vytažeí α aproximovat pomocí (Vorlíčková (985), str 9, rce (46)): [ ] α k = λ ( + π) π k π k + o(), kde = N π k ( π k ), π = k= N k= π k ( π k) a λ je vhodá kostata, aby platila podmíka N k= α k = Pro odhad rozptylu odhadu úhru pak pravděpodobosti zahruti dvojic π kl aproximujeme opět pomocí vzorce (6) 7cvičeí Sampfordova modifikace zamítacího výběru Mějme předepsáy pravděpodobosti zahrutí π = (π,, π ) a rozsah výběru, tedy platí N k= π k = Defiujme si psti vytažeí pro prví tah αk I = π k a pro ostatí tahy αk II = λ π k π k, kde λ = ( N π j j= π j ) Pomocí těchto pstí taháme postupě jedotek (s vraceím) Pokud jsou po tazích všechy jedotky růzé, výběr přijmeme V opačém případě výběr zamíteme a děláme ový výběr Výhodou tohoto postupu je, že pravděpodobosti zahrutí jsou přesě rové předepsaým hodotám π,, π N Tradičím problém zůstavá výpočet pstí dvojic zahrutí π kl Buď můžeme (jako tradičě) použít vzorec (6) aebo svou důvěru vložit do fukce sampfordpi z R-kovského balíčku pps Postupý výběr Postupě vybíráme jedotky s estejými pstmi (α = (α,, α N )) s vraceím Pokud vytáheme již vybraou jedotku, tak tuto jedotku zamítu a tahám zovu Dle mého ázoru je teto postup ekvivaletí s tím, že taháme postupě s růzými pravdepodobostmi Vytažeou jedotku již evrátíme do výběru a přepočteme zbývající psti vytažeí α, aby jejich součet byl jedička Máme-li předepsáy pravdepodobosti zahrutí π = (π,, π N ) (0 < π k < ), pak můžeme vypočítat pravděpodobosti vytažeí α pomocí ásledující aproximace uvedeé a předášce α k = λ π k ( + π k ), kde λ určíme tak, aby N α k = k=
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 7 Jiou možostí založeou a Větě 6 z Vorlíčková (985) je položit α k = ( π k ) T, kde T řeší rovici N = N k= ( π k) s Pro použití rozptylových vzorců (4) a (5) potřebujeme zát π kl Jelikož ejsme schopi tyto hodoty přesě vypočítat, můžeme použít ásledující aproximaci (Čermák (980), str 59, rce (39)) π kl = π k π l ( + π k + π l N l= Restricted radom samplig Mějme ějakou pomocou veličiu {x k, k U} jejíchž hodoty záme pro celou populaci již před provedeím výběru a o které můžeme předpokládat, že souvisí se zkoumaou veličiou {x k, k U} Základí myšleka restricted radom samplig je udělat takový výběr, který v hodotách x k je dobrou zmešeou kopií celé populace Většiou požadujeme balace v prvích dvou mometech veličiy x k Tj provádíme prostý áhodý výběr tak dlouho, dokud veličy t (s) a t (s) (defiovaé íže) ejsou dostatečě malé t (s) = ( xs X) (), a t ( x s (s) = X () ) S x, kde a k= S x x () s = K(s) x k, k s X() = N π l N x k, [ ] / [ ] / N S x = (x k N X) N, S x = (x k N X () ) Autoři kihy Valliat et al (000) doporučují jako rozumou volbu t (s) < 0,5 a t (s) < 0,5 k= k= 8cvičeí Skupikový výběr (cluster samplig) Populace se rozpadá a skupiky My vybereme ěkolik skupiek a ty prošetříme celé Důvody: eexistuje sezam elemetárích jedotek skupiky jedotek jsou rozptýley a velkém území Zásady: skupiky by měly být přibližě stejě velké Pokud ejsou stejě velké doporučuje se vybírat skupikami s pstmi úměrými jejich velikosti skupiky jsou uvitř co ejvíce růzorodé, ale aveek co ejvíce podobé )
8 POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Jedá se vlastě o speciálí případ dvoustupňového výběru (viz dále) V dalším textu budeme předpokládat, že skupiky jsou vybráy pomocí PNV Začeí: U = M i= U i rozklad populace a skupiky M celkový počet skupiek m počet vybraých skupiek s = r s I U r rozklad výběru a skupiky f I = m M Y r = k U i koečostí ásobitel y k celkový úhr v r té skupice metoda Jelikož pst zahrutí je pro každou jedotku π k = m M, pak H-T odhad má tvar Ŷ = M Y r m = M ˆȲ, kde ˆȲ = m r s I r s I Iterpretace: odhademe průměrý úhr připadající a jedu skupiku a vyásobíme počtem skupiek Výše uvedeý odhad má rozptyl a Ȳ = M M i= Y i var(ŷ) = M f I m S M, kde S M = M Teto rozptyl můžeme odhadout aalogicky jako u PNV: Y r M (Y i Ȳ ) var(ŷ) = M f m s M, kde s M = (Y r ˆȲ ) m r s I je výběrový rozptyl skupikových úhrů Pozámky: teto odhad je sice estraý, ale evyužívá vztahu mezi velikostí skupiky a úhrem v této skupiě; při ezalosti celkového počtu jedotek N elze odhadout průměr a jedu jedotku metoda Odhad průměru: Y = m m r s I Y r r s I N r Iterpretace: odhademe průměrý úhr připadající a jedu skupiku ( ˆȲ = m a vydělíme průměrou velikostí vybraých skupiek N si r s I N r = ˆȲ N si = m i= r s I Y r)
Odhad MSE odhadu průměru: Pozámky: POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 9 MSE(Ŷ ) = f I m( N si ) (Y r m Ŷ N r ) r s I jedá se o poměrový odhad typu My vlastě odhadujeme R = ( M i= y i/ M i= x i), pomocí ȳ s / x s, kde roli y i hrají skupikové úhry t i a roli x i hrají rozsahy skupiek N i ; odhad eí obecě estraý; při ezalosti celkového počtu jedotek N elze odhadout celkový úhr 3 metoda Odhad průměru: Y 3 = Ȳ r, kde Ȳ r = m N r r s I y k = Y r N r k U r Iterpretace: spočítáme průměry a jedu jedotku ve všech skupikách ( Yr N r ) a spočítáme průměr z těchto skupikových průměrů Odhad MSE odhadu průměru: Odhad úhru: Odhad MSE odhadu úhru: Pozámky: MSE(Ŷ 3) = f I m r s I Ŷ 3 = M N si Ŷ 3 ( Ȳ r Ŷ 3) MSE(Ŷ3) = (M N si ) MSE( Ŷ 3 ) jedá se vlastě o poměrový odhad typu ; v případě, že místo PNV vybíráme skupiky s pstí zahrutí úměrou rozsahům skupiek N,, N M, pak se vlastě jedá o HT odhad; obecě eí estraý; lze zkostruovat odhad úhru i průměru a jedotku i při ezalosti N Při odhadu úhru se však trochu ztrácí využití vztahu mezi velikostí skupiky a skupikovým úhrem
0 POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Důvody: Začeí: 9cvičeí Oblastí (stratifikovaý) výběr kromě celkových (celorepublikových) odhadů, chceme odhad také za jedotlivé oblasti (kraje) vytvořeí relativě homogeích strat sižuje variabilitu odhadu růzá ákladost prošetřeí jedotek G počet oblastí U g g-tá oblast o velikosti N g sg rozsah výběru v g-té oblasti f g = sg N g Odhad úhru: oblastí výběrové podíly (7) Ŷ = G g= je výběrový průměr v g-té oblasti Rozptyl tohoto odhadu je var(ŷ ) = G je rozptyl v g-té oblasti g= N g Odhad rozptylu odhadu úhru pak bude (8) var(ŷ ) = G g= N g je výběrový rozptyl v g-té oblasti Itervalový odhad Veličia N g ȳ sg, kde ȳ sg = sg f g sg S g, kde S g = f g sg s g, kde s g = Ŷ Y q var( Ŷ ) N g k s g y k sg sg k U g (y k ȳ sg ) k= (y k ȳ sg ) má přibližě t-rozděleí Neí však úplě zřejmé, kolik má toto t-rozděleí stupňů volosti Počet stupňů volosti se tedy odhaduje pomocí ásledujícího postupu Spočteme počet stupňů volosti v jedotlivých oblastech ν g = sg, pro g =,, G Dále spočteme podíly odhadů rozptylů odhadů úhrů v jedotlivých oblastech a odhadu rozptylu celkového úhru T k = Nk ( f N k sk G Ng g= ( fg N sg ) S k ) S g pro k =,, G
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 3 Celkový počet stupňů volosti pak odhademe jako vážeý harmoický průměr stupňů volosti v jedostlivých oblastech ν = G g= Pozámka Pro odhad počtu stupňů volosti platí mi ν g ν g G G ν g = g= Tg ν g G ( g ) = G, tedy stratifikace sižuje počet stupňů volosti oproti PNV, pro který je počet stupňů volosti Speciálě pokud = = = G, N = N = = N G a s = s = = s G, pak g= T = T = = T G = G a ν = G ( ) = G Pozámka Odhad stupňů volosti je založe a Satterthwaitově aproximaci rozděleí vážeého součtu ezávislých kvadratických forem pomocí χ -rozděleí, viz Satterthwaite (946) Stejá myšleka je využita v Satterthwaitově verzi dvouvýběrového t-testu v případě estejých rozptylů, viz Aděl (998), str 88 Optimálí alokace Chceme-li miimalizovat rozptyl odhadu úhru za předpokladu daých celkových ákladů a výběr C = G g= c g sg, kde c g je cea prošetřeí jedé jedotky v g té oblasti, pak volíme rozsahy výběrů v jedotlivých oblastech pomocí vzorce sk = C N ck k S k G g= N g S g cg Speciálě pro c = = c g = a C = dostáváme sk = N k S k G g= N g S g Poststratifikace PNV se provede a celém souboru (tedy žádá ezávislé vybíráí ve stratech) Pro odhad úhru však epoužiju N ȳ s ale vzoreček (7) Ozačme teto odhad ŶP Rozptyl tohoto odhadu by zastáci desig based přístupu odhadli pomocí var(ŷp ) = N f G N g N s g + G ( N ) g s g N g= g= zatímco zastáci coditioal iferece by využili vzorce (8) Poststratifikace může začě vylepšit áš odhad, pokud se průměry v růzých stratech výrazě liší Je však třeba dát pozor, aby apozorovaé rozsahy ve stratech byly dostatečě velké, aby odhady průměrů ȳ sg ebyly příliš estabilí
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Provádí se ve dvou krocích cvičeí Dvoustupňový výběr () Výběr větších, tzv primárích výběrových jedotek (pvj) () V rámci pvj vybírám meší, tzv sekudárí výběrové jedotky (svj) Dá se ukázat, že z hlediska přesosti (variability) odhadu při daém celkovém rozsahu výběru si ve srováí s přímým výběrem jedotek z celého souboru vždy pohoršíme Důvody pro teto typ výběru jsou tedy především admiistrativí (apř chybí opora výběru) a ekoomické (apř bylo by drahé procestovávat všechy kouty republiky) Budeme předpokládat, že a obou stupích vybíráme jedotky pomocí PNV Začeí: M celkový počet pvj m počet vybraých pvj f I = m M koečostí ásobitel a Istupi výběru f IIr = r N r koečostí ásobitel a IIstupi výběru Ŷ r = N r ȳ r odhad úhru pro r-tou pvj S r populačí rozptyl v r-té pvj s r výběrový rozptyl v r-té pvj metoda Jelikož pro jedotku y k z i-té pvj je pst zahrutí π k = m M úhru má tvar Ŷ = M m r s I N r ȳ r = M m r s I Ŷ r i N i, pak H-T odhad Iterpretace: v každé pvj odhademe úhr (Ŷr), spočteme průměr těchto odhadů úhru a vyásobíme počtem pvj Rozptyl odhadu úhru Ŷ je var(ŷ) = M f I m S M + kde SM bylo defiováo u skupikového výběru Výše uvedeý rozptyl můžeme odhadout pomocí (9) var(ŷ) = M f I m s M + M m M r= N r r s I N r f IIr r S r, f IIr r s r,
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 3 kde s M = m r s I Ŷ r Ŷ t /m t s I, a s r = (y k ȳ r ) r k s r metoda Odhad průměru: Y = r si Ŷr r s I N r r s = I N r ȳ r r s I N, r Iterpretace: odhademe celkový úhr ve všech vybraých pvj a vydělíme počtem všech jedotek v těchto pvj (0) Odhad MSE odhadu průměru: MSE(Ŷ ) = f I m( N si ) (Ŷr N r Ŷ ) + m r s I mm( N si ) kde N si = m m i= N i je průměrá velikost pvj zahrutých ve výběru r s I N r f IIr r s r, Odhady eí estraý, ale za určitých podmíek regularity je asymptoticky estraý 3 metoda Odhad průměru: Y 3 = ȳ r m r s I Iterpretace: odhademe průměry a jedu jedotku ve všech pvj a spočítáme z ich průměr Problémem tohoto odhadu by mohla být estabilita v případě, že v ěkteré pvj je malý rozsah výběru () Odhad MSE odhadu průměru: MSE(Ŷ 3) = f I m (ȳ r m Ŷ 3) + f I f IIr m s r r r s I r s I Jelikož se často stává, že výběry a druhém stupi ebývají příliš rozsáhlé, mohou být výběrové rozptyly s r ve vzorcích (9), (0) a () dost epřesé odhady populačích rozptylu v daé pvj Proto se v těchto vzorcích výběrový rozptyl s r ahrazuje pomocí průměrého výběrového rozptylu s w = r s I ( r ) s r r s I ( r ) Poměrový odhad Budeme předpokládat prostý áhodý výběr (bez vraceí) Ozačme si R = k U Y k = Ȳ X, k U X k
4 POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ Trochu si rozšíříme začeí: SY = N N k= (y k Ȳ ), s y = N k= (x k X), s x = S X = N S XY = N S Y RX = N N k= (x k X)(y k Ȳ ), s xy = N k= (y k Ȳ R (x k X)), s y rx = V zásadě máme tři možosti, jak odhadou poměr R () odhad 0typu : ˆr 0 = ȳs X, () odhad typu : ˆr = ȳs (3) odhad typu : ˆr = x s, y k k s x k S výjimkou odhadu ˆr 0 tyto odhady ejsou estraé Odhad úhru k s (y k ȳ s ) k s (x k x s ) k s (x k x s )(y k ȳ s ) k s (y k ȳ s r (x k x s )) Poměrovým odhadem (typu) úhru v tomto textíku budeme rozumět odhad ve tvaru Ŷ r = X ˆr = X ȳs x s, kde X = N x k k= Teto odhad eí obecě estraý a jeho vychýleí je přibližě bias(ŷ ) = N( f) X ( ) Ȳ X S X S XY = N( f) ( ) X R S X S XY Středí čtvercová chyba poměrového odhadu Ŷr je přibližě MSE(Ŷr) = ( ) N ( f) SY RX + bias(ŷr) = N ( f) SY RX + O( N ) MSE(Ŷr) tedy odhadujeme pomocí ( ) MSE(Ŷr) = N ( f) X x s s y ˆr x Od prostého odhadu úhru ve tvaru Ŷ = N ȳ se vyplatí přejít k poměrovému odhadu Ŷr, jestliže corr(x, Y ) > V X, kde corr(x, Y ) = S XY S, V V Y S X S X = X X, V S Y = Y Ȳ Y V praxi bychom ahradili populačí hodoty jejich výběrovými protějšky, tj () ĉorr(x, Y ) > v x, kde ĉorr(x, Y ) = sxy s, v v y s x s x = x s x s, v y = y ȳ s y
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 5 Regresí odhady Opět budeme předpokládat prostý áhodý výběr (bez vraceí) a odhadujme celkový úhr Rozdílový odhad Teto odhad má tvar Odhad je estraý a má rozptyl var(ŷ ) = N ( f) který můžeme odhadout pomocí var(ŷ ) = N ( f) Ŷ = N ȳ s + N ( X x s ) N N (y k Ȳ x k + X) = N ( f) k= k s (y k ȳ s x k + x s ) = N ( f) S Y X s y x Regresí odhad s koeficietem regrese odhadutým z výběru Teto odhad má tvar Ŷ b = N (ȳ s + b ( X x s )), kde b = s xy s x Odhad Ŷb eí obecě estraý, ale pouze za vhodých podmíek asymptoticky estraý Jeho středí čtvercová chyba se aproximuje pomocí MSE(Ŷb) = N ( f) N N k= [ yk Ȳ B (x k X) ] = N ( f) S Y B X kde B = S XY S X je populačí regresí koeficiet Odhadem středí čtvercové chyby pak je MSE(Ŷb) = N ( f) k s [y k ȳ s b (x k x s )] = N ( f) s y b x Odhad regresího parametru b = sxy odpovídá odhadu získaému metodou ejmeších s x čtverců za předpokladu, že aše data se dají dobře popsat modelem kde e,, e jsou ezávislé chyby y k = α + β x k + e k, k =,,,
6 POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 3cvičeí Norespose Pravděpodobostí výběr idealisticky předpokládá, že dokážeme provést všechy ásledující kroky: () Zkostruovat potřebou oporu výběru (frame) pro cílovou populaci () Vybrat soubor způsobem, který ám dává požadovaé pravdepodobosti zahrutí (3) U každé jedotky ve výběru apozorovat všechy sledovaé veličiy (4) Bezchybě zpracovat (tj zazameat, přeést z formulářů ) data a připravit je k aalýze (5) Správě zpracovat data (tj použít metody vhodé pro daou situaci) Jestliže výběrovou chybou rozumíme kolísáí (variabilitu) odhadů v důsledku prováděí áhodého výběru, pak evýběrovu chybou se zpravidla rozumí chyba v důsledku porušeí ěkterých předpokladů () (5) Velmi často vzikají problémy u bodu (3) Jedotky buď eodpovídají správě záměrě, ebo otázku emusí správě pochopit, či mohou být ovlivěi způsobem položeí atd V případě, že ám pro daou jedotku chybí zjišťovaá veličia mluvíme o orespose V praxi se často rozlišuje tzv jedotková (uit) orespose, kdy ám u jedotky chybí všechy zjišťovaé veličiy, ebo tzv položková (item) orespose, kdy ám chybí pouze ěkteré ze zjišťovaých veliči Učebice ám říkají, že orespose je spíše pravidlem ež výjimkou Vpodstatě každé praktické šetřeí obsahuje orespose Rozdíly mohou být pouze v míře této orespose Nechť s začí soubor vybraých jedotek a r začí soubor skutečě prošetřeých jedotek Takovou ejjedoduší mírou orespose je zřejmě λ = r K(s), kde K(s) je rozsah souobru s a r je rozsah souboru r V případě, že jedotky emají shodé psti zahrutí, je asi vhodější použit tzv vážeou míru orespose r k= λ w = /π k K(s) k= /π k Hlavím problémem orespose je, že ám zpravidla vychyluje populaci Tj populace, ze které vybíráme, se liší od populace, o které bychom rádi proášeli ějaké úsudky Proto se doporučuje již při pláováí šetřeí myslet a to, jak miimalizovat orespose (školeí tazatelů, způsob získáváí údajů ) Pro citlivé otázky se může využít metoda záhoděého dotazováí V průběhu šetřeí se pak ezastižeé jedotky pokoušíme opětově kotaktovat Po vyčerpáí těchto možostí (resp fiačích prostředků) se pak přichází ke
POZNÁMKY K VÝBĚRŮM Z KONEČNÝCH SOUBORŮ 7 vhodým statistickým metodám V zásadě se využívá těchto dvou metod - převážeí a imputace Použitá literatura Aděl, J (998) Statistické metody (vyd) Matfyzpress, Praha Cochra, W G (977) Samplig Techiques Wiley, New York Daviso, A C ad Hikley, D V (997) Bootstrap Methods ad their Applicatio Cambridge Uiversity Press, New York Efro, B ad Tibshirai, R (993) A Itroductio to the Bootstrap Chapma & Hall Greeberg, B G, Abul-Ela, A-L A, Simmos, W R, ad Horvitz, D G (969) The urelated questio radomized respose model: Theoretical framework J Amer Statist Assoc, 64:50 539 Greeberg, B G, Kuebler, R R, Aberathy, J R, ad Horvitz, D G (97) Applicatio of radomized respose techique i obtaiig quatitative data J Amer Statist Assoc, 66:43 50 Hodges, J L, Mostseller, F, ad Youtz, C (983) Allocatig loss of precisio i the sample mea to wrog weights ad redudacy i samplig with replacemet from a fiite populatio I A Festschrift for Erich L Lehma, pages 39 48 Wadsworth Särdal, C-E, Swesso, B, ad Wretma, J (99) Model Assisted Survey Samplig Spriger, New York Satterthwaite, F E (946) A approximate distributioof estimates of variace compoets Biometrics Bulleti, :0 4 Shao, J (003) Impact of the bootstrap o sample surveys Statistical Sciece, 8:9 98 Valliat, R, Dorfma, A H, ad Royall, R M (000) Fiite Populatio Samplig ad Iferece Wiley, New York Čermák, V (980) Výběrové statistické zjišťováí SNTL Vorlíčková, D (985) Výběry z koečých souborů Uiverzita Karlova Skripta Warer, S L (965) Radomized respose: A survey techique for elimiatig evasive aswer bias J Amer Statist Assoc, 60:63 69