Lekce Náhodý výběr, statistiky a bodový odhad Parametr rozděleí pravděpodobosti je ezámá kostata, jejíž přímé určeí eí možé. Nástrojem pro odhad ezámých parametrů je áhodý výběr a jeho charakteristiky statistiky. Z kokrétího provedeého áhodého výběru eí obtížé výběrové charakteristiky přímo vypočítat. Jsou to (s drobými odchylkami) ty, kterými jsme se učili popisovat datový soubor. Určitým problémem, ale současě i východiskem, je to, že růzých áhodých výběrů můžeme z rozděleí pravděpodobosti pořídit ekoečé možství. Každý z ich je současě jediečý a eopakovatelý, ale každý z ich v sobě současě obsahuje kousek iformace o ezámých parametrech rozděleí pravděpodobosti áhodé veličiy. Výběrové charakteristiky jsou áhodé veličiy a smyslem této lekce je co ejlépe pozat jejich pravděpodobostí chováí. Při tom evystačíme je s ormálím rozděleím, ale v zájmu věci musíme zavést ještě ěkolik dalších zákoů rozděleí pravděpodobosti. bodový odhad; Fisherovo edecorovo rozděleí; kozistece; kritéria výztižosti; áhodý výběr; ejlepší estraý odhad; estraost; parametr; Pearsoovo rozděleí; realizace statistiky; směrodatá chyba; statistika; tudetovo rozděleí; stupě volosti; výběrová charakteristika; výběrová relativí četost; výběrová směrodatá odchylka; výběrový protějšek; výběrový průměr; výběrový rozptyl; vydatost. Náhodý výběr a statistiky Posloupost ezávislých a stejě rozděleých áhodých veliči X,...,, X X je áhodým výběrem z rozděleí pravděpodobosti áhodé veličiy X o (koečém) rozsahu výběru. Při splěí podmíek výběru s opakováím jsou prvky áhodého výběru ezávislé áhodé veličiy. Náhodost výběru je zajištěa pomocí ěkteré z výběrových techik, kterým se podroběji ebudeme zabývat. Jako výběrovou techiku, zajišťující áhodost výběru, si můžeme představit apř. losováí. To, že veličiy X, X,..., X pocházejí z téhož rozděleí pravděpodobosti, má za ásledek, že všechy mají stejou středí hodotu i rozptyl E ( X ), D ( X ) (to se týká i dalších charakteristik, které ás však v tomto okamžiku ezajímají). Od charakteristik áhodé veličiy musíme striktě rozlišit charakteristiky áhodého výběru, kterým se souhrě říká statistiky (další výzam pojmu statistika!). Nejdůležitější výběrovou charakteristikou je pochopitelě výběrový průměr X. Jde o áhodou veličiu (proto ozačeí velkým písmeem), jejíž vlastosti závisí a rozsahu výběru (proto idex ). Od výběrového průměru jako áhodé veličiy musíme odlišit kokrétí číslo, hodotu realizaci, kterou tato veličia abyla pro určitý kokrétí áhodý výběr, kterou ozačíme x (tj. jako kostatu malým písmeem a bez idexu ). Podobě jako s výběrovým průměrem zacházíme i s dalšími statistikami, apř. výběrovým mediáem, výběrovým rozptylem apod. Pro účely zobecěí ozačujeme libovolou statistiku, jejíž vlastosti souvisí s rozsahem výběru, symbolem T. Ilustrativí příklad sčítáí áhodých veliči Teto příklad uvádíme proto, že při výpočtu výběrového průměru operujeme se součtem X i Na obr.. je pravděpodobostí chováí součtu ezávislých áhodých veliči demostrováo pomocí součtu rovoměrě rozděleé spojité áhodé veličiy, podobý výsledek bychom ovšem obdrželi i při sčítái jiak rozděleých áhodých veliči (dokoce i při růzém rozděleí jedotlivých sčítaců, což však eí pro áhodý výběr typické).. 6
Obr.. Kovergece součtu ezávislých áhodých veliči k ormálímu rozděleí f(x), p i f(x), p i f(x), p i x x x Jeda áhodá veličia má rovoměré rozděleí. oučet dvou ezávislých veliči má již tzv. trojúhelíkové rozděleí. oučet pouhých pěti veliči má již rozděleí, které je blízké ormálímu. Histogramy byly získáy tříděím 500 realizací áhodých veliči a proložey odpovídajícím rozděleím. Původí rovoměré rozděleí bylo vytvořeo počítačovou simulací. Zajímáme se o charakteristiky áhodé veličiy, vziklé jako součet jiých áhodých veliči, přičemž budeme předpokládat, že výsledá veličia koverguje k ormálímu rozděleí. Mají-li všechy sčítace stejé středí hodoty i rozptyly E ( X ), D ( X ) (což je případ áhodého výběru), pak ( X ) E( X ), D ( X ) = D ( X ). Při dostatečém počtu sčítaců můžeme psát také E i = ( X i ) = E( X ) = µ a D E X i i má tedy rozděleí [ µ ; ] N. i ) = D ( X ) = ( X. Přemýšlejte o tom, jak se chová průměrý výsledek, který hodíme při hodu rostoucím počtem hracích kostek. Při tom víme, že při hodu jedou kostkou je výsledkem hodota x :,,..., 6 s kostatí pravděpodobostí fukcí ( x) = 6 P (tzv. diskrétí rovoměré rozděleí). i. Rozděleí výběrových charakteristik tředí hodota výběrového průměru (který je součtem za těchto okolostí E( X ) = X i = E( X ) = E( X ) = µ X i., děleým rozsahem výběru ) je tředí hodota výběrového průměru (bez ohledu a ) je tedy rova středí hodotě áhodé veličiy, z jejíhož rozděleí byl výběr poříze. Variabilita výběrového průměru vyjádřeá jeho rozptylem je 7
D ( X D X D X i D X ) ( ) = ( ( ) ) = = = i = D( X ) a směrodatá odchylka je dáa jako D( X ) = =. měrodatá odchylka výběrové charakteristiky se azývá směrodatá chyba. rostoucím rozsahem výběru klesá směrodatá chyba výběrového průměru, čímž se zvyšuje jeho stabilita. taovte jak se musí změit rozsah výběru pokud se má směrodatá odchylka výběrového průměru (a) zdvojásobit, (b) sížit a poloviu, (c) sížit a desetiu původí hodoty. ( ) Obr.. Rozděleí výběrového průměru f(x) 0.75 0.5 0.5 0 3 4 5 x Tečkovaou čarou je zázorěa hustota pravděpodobosti rozděleí, ze kterého byl výběr poříze. Přesto, že toto rozděleí se od ormálího rozděleí liší, výběrové průměry mají rozděleí, jehož hustota pravděpodobosti je symetrická zvoovitá křivka. rostoucím rozsahem výběru se poloha středí hodoty výběrového průměru eměí, zatímco jeho variabilita klesá (rozděleí se stabilizuje). Jedotlivé křivky jsou zázorěy pro rovo postupě 3, 5 a 0. Rozděleí výběrového průměru je tedy ormovaé ormálí rozděleí N [ 0; ] N µ ;( ) a ormovaá veličia. Pro veličiu U můžeme apř. apsat X µ U = má X µ P uα u α = α. Je-liα dostatečě blízké ule, je jev, že veličia pade do itervalu vymezeého oběma kvatily ormovaého ormálího rozděleí, jevem prakticky jistým. Vztah obsahuje jako ezámé µ,, všechy ostatí veličiy jsou zámé: rozsah výběru, výběrový průměr a dále kvatily, mezi imiž platí u = u, ajdeme v tabulkách. Problémem, který α budeme muset v ásledujících odstavcích vyřešit, jsou dvě ezámé v tomto výrazu a tudíž eexistece jedozačého řešeí. Náhodá veličia X má N [ 000;5 ]. jakou pravděpodobostí (přibližě) vybočí z itervalu ( 990;00)? jakou pravděpodobostí vybočí aritmetický průměr z 5 hodot této veličiy z itervalu ( 998;00)? ( ) α X µ U =, má-li U rozděleí [ 0; ] Náhodá veličia N (viz tečkovaá křivka a obr..3), má U 0 rozděleí pravděpodobosti, jehož hustota je klesající fukce (rověž a obr..3). 8
Obr..3 Rozděleí veličiy f(x) 0.75 0.5 0.5 0 U a jejích součtů Při výpočtu rozptylu se setkáváme se součtem čtverců odchylek, z ichž ale je je ezávislých. Posledí ( tou) odchylku můžeme vždy vypočítat ze součtu zbývajících odchylek při využití toho, že součet všech odchylek je rove ule. Na obr..3 je tedy ještě zázorěa hustota pravděpodobosti tohoto součtu čtverců odchylek pro = 6. Takovéto rozděleí, které elze dobře aproximovat rozděleím ormálím, se azývá Pearsoovým rozděleím (rozděleím chí kvadrát); začíme ν (ý) je jediým parametrem to- χ [ ν ], kde = hoto rozděleí. Klesající hustota a obr..3 je tedy Pearsoovým rozděleím χ [ ]. Kvatily Pearsoova rozděleí jsou rověž tabelováy. Náhodá veličia ( X i X ) ( ) = má rozděleí [ ] χ. = ( Xi X ) je výběrový rozptyl. Te se od popisé formy rozptylu liší tím, že pro děleí součtu čtverců se používá místo rozsahu výběru hodota, která se azývá počet stupňů volosti. I pro výběrový rozptyl můžeme apsat χ ( ) α P χ α = α. Teto výraz obsahuje jediou ezámou veličiu, kterou je rozptyl. Vzhledem k asymetrii hustoty pravděpodobosti jsou i kvatily umístěy asymetricky (avíc mohou abýt pouze kladých hodot, protože χ 0 ) viz obr..3. zatímco apř. Vzájemý přepočet popisé a výběrové formy rozptylu je sadý, eboť = χ [ ] χ [ 5] -3-3 5 7 9 x. =, Odhaděte, jak (apř. o kolik %) se od sebe liší popisá a výběrová forma rozptylu (směrodaté odchylky) pro = 5, 0, 30,00, 000! Nezámý parametr ve vztahu X µ U = ahradíme výběrovou směrodatou odchylkou, tj. statistikou získaou z áhodého výběru (ezámou kostatu ahrazujeme áhodou veličiou!). X µ Pak áhodá veličia, popisující rozděleí výběrového průměru t = (veličiu t i její realizace je zvykem výjimečě začit malým písmeem), má rozděleí, které se azývá tudetovo, s jediým parametrem, kterým je opět počet stupňů volosti. Toto rozděleí budeme ozačovat 9
[ ν ] t. Hustota pravděpodobosti tudetova rozděleí je symetrická zvoovitá křivka, která se s rostoucí hodotou parametru blíží ke Gaussově křivce pro ormovaé ormálí rozděleí. Tou se běžě ahrazuje pro > 30. Pro ízké hodoty parametru je při porováí s Gaussovou křivkou patrá ižší Obr..4 tudetovo rozděleí 0.5 0.5 0 N [ 0;] -3 - - 0 3 t [ 0] t [ 5] výška vrcholu křivky v kombiaci s delšími koci rozděleí (pomalejším přibližováím obou větví křivky k ose áhodé veličiy). Hodoty odpovídajících si kvatilů jsou proto u tudetova rozděleí vzdáleější od počátku, ež je tomu u ormovaého ormálího rozděleí. tudetovo rozděleí umožňuje práci s výběry již od rozsahu > (aby bylo možo vypočítat rozptyl). Také pro tudetovu veličiu můžeme psát X µ P tα t α = α, kde α je prav- děpodobost prakticky jistého jevu. Teto výraz již obsahuje jediou ezámou µ a může tedy být využit k jejímu staoveí. Kvatily, pro které vzhledem k symetrii platí t α = t α, jsou tabelováy. Pro dva ezávislé výběry zavedeme ormovaé veličiy rozdíl, obsahující rozdíl dvou výběrových průměrů, rozděleí N [ 0;]. Náhrada ezámých parametrů U U, X µ X µ = U =. Jejich ( X X ) ( µ µ ) U = má opět +, výběrovými rozptyly, (vypočteými postupě z, stupňů volosti) evede k utosti ahradit ormovaé ormálí rozděleí tudetovým rozděleím je při extrémě velkých rozsazích výběrů,. U meších rozsahů výběrů rozlišujeme dvě možosti: () mají-li výběrové průměry sice ezámou, ale stejou variabilitu, má jejich rozdíl tudetovo rozděleí t s + stupi volosti. () mají-li výběrové průměry ezámou a avíc estejou variabilitu, má jejich rozdíl rověž tudetovo rozděleí t s vypočteým (tzv. redukovaým) počtem stupňů volosti. Pro dva ezávislé výběry můžeme zkostruovat áhodou veličiu F =, obsahující podíl dvou rozptylů. Podíl ( F > 0 slouží jak pro ozačeí áhodé veličiy, tak i jejích hodot) je áhodou veličiou s tzv. Fisherovým edecorovým rozděleím. Toto rozděleí závisí a dvojici parametrů ν = ; ν =, což jsou postupě stupě volosti pro rozptyl čitatele a jmeovatele zlomku, a vykazuje ve většiě případů silě levostraou asymetrii. Aalogicky jako v předešlých případech 0
můžeme pomocí dvou asymetricky položeých kvatilů F F vymezit iterval, do kterého α, α áhodá veličia padá s vysokou pravděpodobostí, blízkou jedé. Obr..5 Fisherovo edecorovo rozděleí f(f) 0.75 0.5 F [ 0;5] χ [ 5] χ [ 0] tručý výtah z tabulek kvatilů ormovaého ormálího rozděleí, tudetova rozděleí t, Pearsoova rozděleí χ a Fisherova edecorova rozděleí F viz příloha tohoto modulu. 0.5 0 0 3 4 5 6 7 8 9 0 F Výběrová relativí četost p je áhodou veličiou se středí hodotou E ( p) = θ a rozptylem D ( p) = θ ( θ ), kde θ je jediý parametr a současě charakteristika polohy alterativího rozděleí. Při splěí podmíky p ( p) > 9 lze rozděleí výběrové relativí četosti ahradit θ ( θ ) ormálím rozděleím N θ ;, přičemž ve vzorci rozptylu ahradíme ezámý parametr θ p θ výběrovou relativí četostí p. Veličia U = má rozděleí N [ 0; ]. p( p) Další úvahy jsou pak zcela aalogické jako u rozděleí výběrového průměru. Určete, od jakého počtu micí lze relativí četost padlých líců přibližě vyjádřit pomocí ormálího rozděleí! Tutéž úvahu proveďte v případě počtu smě, je-li pravděpodobost vziku poruchy během směy p = 0,..3 Pricip bodového odhadu Nejprve formalizujeme pojem statistiky jako áhodé veličiy, která je fukcí áhodého výběru T = g( X, X,..., X ). Realizaci statistiky T její kokrétí hodotu příslušející určitému kokrétímu áhodému výběru ozačíme symbolem t. tatistika je áhodou veličiou, má svůj záko rozděleí pravděpodobosti, který je charakterizová středí hodotou E T ), rozptylem a směrodatou odchylkou (směrodatou chybou) D ( T ), D( T ). Vlastosti rozděleí statistiky T často souvisí s rozsahem výběru. měrodatá odchylka sigalizuje, jak statistika výběr od výběru kolísá a ozačujeme ji proto jako její směrodatou chybu. měrodatá chyba měří velikost áhodé chyby, které se dopustíme, pokud statistikou vypočteou z áhodého výběru ahradíme ezámý parametr rozděleí pravděpodobosti áhodé veličiy (apř. parametr statistikou ). Nechť X, X,..., X je áhodým výběrem o rozsahu z rozděleí pravděpodobosti áhodé veličiy, která má distribučí fukci F( Θ ; x), kde Θ (velké theta) je ezámý parametr (
tohoto rozděleí. tatistiku T azveme bodovým odhadem eboli estimátorem ezámého parametru Θ a píšeme T = estθ. Požadujeme, aby statistika byla výstižým odhadem a přiměřeě splňovala tyto vlastosti kritéria výstižosti bodového odhadu. tatistika je kozistetím odhadem ezámého parametru, pokud s rostoucím rozsahem výběru klesá pravděpodobost, že se při odhadu dopustíme velké chyby. Kozistetí odhad splňuje lim P ( T Θ > ε ) = 0 pro libovolé ε > 0. Populárě lze říci, že kozistece odhadu zameá zhodoceí většího rozsahu výběru tím, že pravděpodobost hrubé chyby při odhadu klesá (říkáme, že koverguje podle pravděpodobosti k ule). tatistika je estraým odhadem ezámého parametru, platí-li E ( T ) = Θ. Populárě řečeo, estraým odhadem se edopustíme systematické chyby. U ěkterých statistik můžeme ovšem pozorovat pouze tzv. asymptotickou estraost, kdy teprve lim E ( T ) = Θ. Opakem estraého odhadu je zkresleý (vychýleý) odhad. E ( T ) Θ. Měřítkem vychýleí odhadu je rozdíl Nestraý odhad s ejmeším rozptylem azýváme maximálě vydatý (ejvydatější) odhad. Pro ejvydatější odhad T T platí D ( T ) D ( ), kde T je libovolý estraý odhad. U ěkterých statistik se hovoří o asymptoticky ejvydatějším odhadu, což zameá, že vydatost odhadu roste se zvyšujícím se rozsahem výběru. Opět populárě řečeo, ejvydatější odhad je takový estraý odhad, jehož použitím se při daém rozsahu výběru dopouštíme ejmeší áhodé chyby. Nejlepším estraým odhadem je odhad, splňující výše uvedeé vlastosti ejdokoalejším možým způsobem (lepší odhad eexistuje). Základím problémem bodového odhadu ovšem je, že se při jeho použití dopouštíme chyby s pravděpodobostí jeda (bezchybý bodový odhad eexistuje), přičemž velikost kokrétí chyby, které jsme se dopustili, eumíme staovit. Obr..6 Růzé případy bodového odhadu Θ. Nestraý odhad s malou vydatostí.. Nestraý odhad s velkou vydatosti. 3. Vychýleý odhad s velkou vydatostí. 4. Vychýleý odhad s malou vydatostí. rováí případů vyvolává otázky, co je vlastě lepší zda apř. vydatý a epříliš vychýleý odhad 3 eí lepší ež sice estraý, ale málo vydatý odhad. Favoritem je samozřejmě odhad a zcela zavrheme zřejmě odhad 4. Naštěstí však takové problémy ebudeme muset řešit..4 Bodové odhady parametrů rozděleí áhodých veliči V rámci tohoto textu použijeme ejprimitivější metodu kostrukce bodového odhadu pomocí tzv. výběrových protějšků. Některé ejlepší estraé odhady: X = estµ, 3 4
= est a est, = X X = est µ µ ), (, = est p = estθ, p p = est θ ). ( θ Všiměme si, že pomocí bodového odhadu řešíme eje odhady samotých parametrů, ale i ěkterých jejich fukcí, z ichž upozorňujeme a rozdíl středích hodot ormálího rozděleí µ µ a alterativího rozděleí θ θ a podíl rozptylů ormálího rozděleí. pektrum možostí ovšem eí eomezeé. Např. elze bodově odhadout ai podíl středích hodot rozdíl rozptylů. µ ai µ Metoda výběrových protějšků obecě evede k bodovým odhadům s dobrými vlastostmi. Lze říci, že právě zde uvedeé případy tvoří u této metody spíše výjimku. Σ. Náhodý výběr z rozděleí pravděpodobosti áhodé veličiy je základím ástrojem, jak pozat zákoitosti jejího pravděpodobostího chováí.. Z rozděleí pravděpodobosti áhodé veličiy lze v pricipu pořídit ekoečě moho růzých áhodých výběrů. 3. Charakteristiky těchto áhodých výběrů statistiky se případ od případu měí a jsou to tedy áhodé veličiy. 4. Nejběžějšími charakteristikami rozděleí pravděpodobosti statistik jsou jejich středí hodoty a směrodaté chyby. 5. Existují vztahy mezi charakteristikami statistik a parametry rozděleí, z ichž byl příslušý výběr poříze. Tyto vztahy umožňují provádět bodové odhady ezámých parametrů původího rozděleí. 6. Bodový odhad, který ejlépe splňuje kritéria kozistece, estraosti a vydatosti odhadu se azývá ejlepší estraý odhad. 7. Uvedli jsme ěkolik estimátorů, které mají při odhadu parametrů a jejich jedoduchých fukcí vlastosti ejlepších estraých odhadů. 8. Základími vlastostmi bodového odhadu je eexistece bezchybého odhadu a emožost staovit velikost chyby, které jsme se v kokrétím případě dopustili. 9. V této lekci bylo evyhutelé zavést ěkolik spojitých áhodých veliči, jejichž rozděleí pravděpodobosti je tudetovo t, Pearsoovo χ ebo Fisherovo edecorovo F. Tato rozděleí budeme systematicky využívat v dalších lekcích. 3
( ) (a) 0,5, (b) 4, (c) 00. ( ) V obou případech jde (přibližě) o pravděpodobost 0,05.. Pravděpodobost, že áhodá veličia s ormovaým ormálím rozděleím přesáhe hodotu 0,5 je rova 0,309. Pro aritmetický průměr áhodého výběru při ezámém rozsahu je tato pravděpodobost rova 0,006. Určete rozsah výběru.. Čemu je rova pravděpodobost překročeí hodoty 0,5 pro rozsah áhodého výběru = 6? 3. u 0,975 =, 96. Pozorujte chováí t 0, 975 při rozsahu výběru, který je postupě = 5,0,5, 0,30,. 4. Klasifikujte ormovaé ormálí rozděleí, tudetovo rozděleí t, Pearsoovo rozděleí parametrů. χ a Fisherovo edecorovo rozděleí F (a) podle symetrie, (b) podle počtu 5. Při zavedeí rozděleí uvedeých v úloze 4 jsme dvakrát použili bodový odhad k ahrazeí ezámého parametru jeho výběrovým protějškem. Které dva případy to byly? 6. Čemu je rova středí hodota a rozptyl áhodé veličiy X X? 7. E( p p ) = θ θ D ( p veličiy, která má rozděleí [ 0;] N, jsou-li splěy podmíky ormálí aproximace. θ( θ) θ( θ ) p ) = + 8. Ověřte si v tabulkách kvatilů, že [ ν ] = F [ ν ]. Napište vzorec t. α α ; 4