Téma 6.: Základí pojmy matematické statistiky Vlastosti důležitých statistik odvozeých z jedorozměrého áhodého výběru: Nechť X,..., X je áhodý výběr z rozložeí se středí hodotou μ, rozptylem σ a distribučí fukcí Φ(x). Nechť. Ozačme M X i výběrový průměr, i S i i X M X M i výběrový rozptyl, i pro libovolé, ale pevě daé x Rozačme F (x) počet těch veliči X,, X, které jsou x hodotu výběrové distribučí fukce. Pak pro libovolé hodoty parametrů μ, σ a libovolé, ale pevě daé reálé číslo x platí: E(M) = μ, E(S ) = σ, E(F (x)) = Ф(x), Zameá to, že - výběrový průměr M je estraým odhadem středí hodoty μ, - výběrový rozptyl S je estraým odhadem rozptylu σ, - pro libovolé, ale pevě daé x Rje výběrová distribučí fukce F (x) estraým odhadem distribučí fukce Φ(x). Příklad.: Ve áhodě vybraých prodejách ve městě byly zjištěy ásledující cey určitého výrobku (v Kč): 0, 99, 06, 03, 96, 98, 00, 05, 03, 98, 04, 07. Těchto hodot považujeme za realizace áhodého výběru X,..., X z rozložeí, které má středí hodotu μ a rozptyl σ. a) Určete estraé bodové odhady ezámé středí hodoty μ a ezámého rozptylu σ. b) Najděte výběrovou distribučí fukci F (x) a akreslete její graf. Řešeí: Vypočteme realizaci výběrového průměru m 099 07 0,75Kč 00,75 990,75 Vypočteme realizaci výběrového rozptylu: s 070,75,39Kč Pro usaděí výpočtu hodot výběrové distribučí fukce F (x) uspořádáme cey podle velikosti: 96, 98, 98, 99, 00, 0, 03, 03, 04, 05, 06, 07. Číselou osu rozdělíme a itervalů a v každém itervalu staovíme hodotu výběrové distribučí fukce.
x 96:F(x) 0 96 x 98:F(x) 0,083 98 x 99:F(x) 3 0,5 99 x 00:F(x) 4 0,3 00 x 0:F(x) 5 0,4 0x 03 :F(x) 6 0,5 03x 04:F(x) 8 0,6 04x 05:F(x) 9 0,75 05x 06:F(x) 0 0,83 06x 07:F(x) 0,9 x 07:F(x) F(x),,0 0,8 0,6 0,4 0, 0,0-0, 96 98 99 00 0 03 04 05 06 07 x Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o jedé proměé (azveme ji X) a případech. Do proměé X apíšeme zjištěé cey. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky Základí statistiky/tabulky Popisé statistiky OK Proměé X OK Detailí výsledky vybereme Průměr a Rozptyl Výpočet. Dostaeme tabulku: Popisé statistiky (Tabulka5) Proměá PrůměrRozptyl X 0,7500,38636 Výpočet hodot výběrové distribučí fukce: Statistiky Základí statistiky/tabulky Tabulky četostí OK Proměé X OK Možosti poecháme zaškrtuté pouze Kumulativí relativí četosti Výpočet. Ke vziklé tabulce přidáme jede případ před prví případ (do sloupce Kategorie apíšeme 95) a jede případ za posledí případ (do sloupce Kategorie apíšeme 07). Proměou Kumulativí rel. četost podělíme 00: do jejího Dlouhého jméa apíšeme = v/00. Kresleí grafu výběrové distribučí fukce: Nastavíme se kurzorem a proměou Kumulativí rel. četost, klikeme pravým tlačítkem Grafy bloku dat Spojicový graf: celé sloupce. Ve vytvořeém grafu odstraíme začky, spojici změíme a schodovitou a upravíme měřítko a vodorové ose od do.
Vlastosti důležitých statistik odvozeých z dvourozměrého áhodého výběru: Nechť (X,Y ),..., (X,Y ) je áhodý výběr z dvourozměrého rozložeí s kovariací σ a koeficietem korelace ρ. Ozačme S i i X M Y M výběrovou kovariaci, i R výběrový koeficiet korelace. S Pak pro libovolé hodoty parametrů σ a ρ platí: E(S ) = σ, E(R ) ρ (shoda je vyhovující pro 30). Zameá to, že výběrová kovariace S je estraým odhadem kovariace σ, avšak výběrový koeficiet korelace R je vychýleým odhadem koeficietu korelace ρ. S S Příklad.: Bylo zkoumáo 9 vzorků půdy s růzým obsahem fosforu (veličia X). Hodoty veličiy Y ozačují obsah fosforu v obilých klíčcích (po 38 dech), jež vyrostly a těchto vzorcích půdy. číslo vzorku 3 4 5 6 7 8 9 X 4 5 9 3 3 3 8 Y 64 7 54 8 76 93 77 95 09 Těchto 9 dvojic hodot považujeme za realizace áhodého výběru (X,Y ),..., (X 9,Y 9 ) z dvourozměrého rozložeí s kovariací σ a koeficietem korelace ρ. Najděte bodové odhady výběrové kovariace σ a výběrového koeficietu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o dvou proměých X a Y 9 případech. Do proměých X a Y zapíšeme zjištěé hodoty obsafu fosforu v půdě a v obilých klíčcích. Výpočet výběrové kovariace: Statistiky Vícerozměrá regrese Proměé Závisle proměá Y, ezávisle proměá X OK OK Residua/předpoklady/předpovědi Popisé statistiky Další statistiky Kovariace. Dostaeme tabulku: Kovariace (T Promě X Y X 9,7530,0 Y 30,0084, Vidíme, že výběrová kovariace velič X, Y se realizuje hodotou 30. (Výběrový rozptyl proměé X resp. Y abyl hodoty 9,75 resp. 84,5.) Výpočet výběrového koeficietu korelace: V meu Další statistiky vybereme Korelace. Korelace (Ta Promě X Y X Y,00000,8049 0,8049,0000 Výběrový koeficiet korelace veliči X, Y abyl hodoty 0,805, tedy mezi veličiami x, Y existuje silá přímá lieárí závislost. Upozorěí: Výběrový koeficiet korelace lze pomocí systému STATISTICA vypočítat i jiým způsobem: Statistika Základí statistiky/tabulky Korelačí matice OK sezam proměých X, Y OK Výpočet. Ve výsledé tabulce máme též realizace výběrových průměrů a směrodatých odchylek.
Korelace (Tabulka8) Ozač. korelace jsou výzamé N=9 (Celé případy vyecháy u ProměPrůměSm.odc X Y X 3,00 9,578,000 0,804 Y 80,00,8590,804,000 Vzorce pro meze 00(-α)% empirického itervalu spolehlivosti pro středí hodotu μ ormálího rozložeí při zámém rozptylu σ : Oboustraý: d m /, h m /. u u u Levostraý: d m. Pravostraý: h m. u Příklad 3.: Při kotrolích zkouškách životosti žárovek byl staove odhad m = 3000 h středí hodoty jejich životosti. Z dřívějších zkoušek je zámo, že životost žárovky se řídí ormálím rozložeím se směrodatou odchylkou σ = 0 h. Vypočtěte a) 99% empirický iterval spolehlivosti pro středí hodotu životosti b) 90% levostraý empirický iterval spolehlivosti pro středí hodotu životosti c) 95% pravostraý empirický iterval spolehlivosti pro středí hodotu životosti. Upozorěí: Výsledek zaokrouhlete a jedo desetié místo a vyjádřete v hodiách a miutách. Řešeí: ad a) d m u 3000 0 0, 995,57583987,, h m u0, 995 3000 0,57583 30,9 987 h a 6 mi < μ < 30 h a 54 mi s pravděpodobostí 0,99 Výpočet pomocí systému STATISTICA Otevřeme ový datový soubor o dvou proměých d, h a jedom případu. Do Dlouhého jméa proměé d apíšeme vzorec =3000-0/sqrt()*VNormal(0,995;0;) Do Dlouhého jméa proměé h apíšeme vzorec =3000+0/sqrt()*VNormal(0,995;0;) ad b) d m u0, 9 3000 0,855993,6 993 h a 36 mi < μ s pravděpodobostí 0,9 Výpočet pomocí systému STATISTICA Otevřeme ový datový soubor o jedé proměé d a jedom případu. Do Dlouhého jméa proměé d apíšeme vzorec =3000-0/sqrt()*VNormal(0,9;0;) ad c)
h m u0, 975 3000 0,959963009,8 3009 h a 48 mi > μ s pravděpodobostí 0,95 Výpočet pomocí systému STATISTICA Otevřeme ový datový soubor o jedé proměé h a jedom případu. Do Dlouhého jméa proměé h apíšeme vzorec =3000+0/sqrt()*VNormal(0,975;0;) Užitečý odkaz: a adrese http://www.prevody-jedotek.cz je program, s jehož pomocí lze převádět růzé fyzikálí jedotky, v ašem případě hodiy a miuty. Základí pozatky o testováí hypotéz Předpokládáme, že testujeme ulovou hypotézu H 0 : h( ) = c, kde c Rbuď proti oboustraé alterativě H : h( ) c ebo proti levostraé alterativě H : h( ) < c ebo proti pravostraé alterativě H : h( ) > c. Testováí pomocí kritického oboru Najdeme testovou statistiku T 0 = T 0 (X,..., X ). Možia všech hodot, jichž může testová statistika abýt, se rozpadá a obor ezamítutí ulové hypotézy (začí se V) a obor zamítutí ulové hypotézy (začí se W a azývá se též kritický obor). W av jsou odděley kritickými hodotami (pro daou hladiu výzamosti α je lze ajít ve statistických tabulkách). Jestliže číselá realizace t 0 testové statistiky T 0 pade do kritického oboru W, pak ulovou hypotézu zamítáme a hladiě výzamosti α a zameá to skutečé vyvráceí testovaé hypotézy. Jestliže t 0 pade do oboru ezamítutí V, pak jde o pouhé mlčeí, které platost ulové hypotézy jeom připouští. Staoveí kritického oboru pro daou hladiu výzamosti α: Ozačme t mi (resp. t max ) ejmeší (resp. ejvětší) hodotu testového kritéria. Kritický obor v případě oboustraé alterativy má tvar W = t mi,k /(T) K /(T), tmax, kde K α/ (T) a K -α/ (T) jsou kvatily rozložeí, jímž se řídí testové kritérium T 0, je-li ulová hypotéza pravdivá. Kritický obor v případě levostraé alterativy má tvar: W = t mi,k(t ). Kritický obor v případě pravostraé alterativy má tvar: W = K (T), tmax. Testováí pomocí itervalu spolehlivosti Sestrojíme 00(-α)% empirický iterval spolehlivosti pro parametrickou fukci h( ). Pokryje-li teto iterval hodotu c, pak H 0 ezamítáme a hladiě výzamosti α, v opačém případě H 0 zamítáme a hladiě výzamosti α. Pro test H 0 proti oboustraé alterativě sestrojíme oboustraý iterval spolehlivosti. Pro test H 0 proti levostraé alterativě sestrojíme pravostraý iterval spolehlivosti. Pro test H 0 proti pravostraé alterativě sestrojíme levostraý iterval spolehlivosti. Testováí pomocí p-hodoty p-hodota udává ejižší možou hladiu výzamosti pro zamítutí ulové hypotézy: je-li p α, pak H 0 zamítáme a hladiě výzamosti α, je-li p > α, pak H 0 ezamítáme a hladiě výzamosti α. Způsob výpočtu p-hodoty:
Pro oboustraou alterativu p = mi{p(t 0 t 0 ), P(T 0 t 0 )}. Pro levostraou alterativu p = P(T 0 t 0 ). Pro pravostraou alterativu p = P(T 0 t 0 ). Příklad 4.: Víme, že výška hochů ve věku 9,5 až 0 let má ormálí rozložeí s ezámou středí hodotou μ a zámým rozptylem σ = 39, cm. Dětský lékař áhodě vybral 5 hochů uvedeého věku, změřil je a vypočítal realizaci výběrového průměru m = 39,3 cm. Podle jeho ázoru by výška hochů v tomto věku eměla přesáhout 4 cm s pravděpodobostí 0,95. Lze tvrzeí lékaře akceptovat? Řešeí: Testujeme H 0 : μ = 4 proti H : μ < 4 a hladiě výzamosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o středí hodotě ormálího rozložeí při zámém rozptylu používáme pivotovou M statistiku U = ~ N(0, ). Testová statistika tedy bude T0 M c = a bude mít rozložeí N(0, ), pokud je ulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: 39 t 0 =, 7773 39, 3 5, 4. Staovíme kritický obor: W = u,u, u,, 6449, 0,05 0, 95. Protože -,7773 W, H 0 zamítáme a hladiě výzamosti 0,05. Tvrzeí lékaře lze tedy akceptovat s rizikem omylu 5 %. b) Test provedeme pomocí itervalu spolehlivosti. Meze 00(-α)% empirického pravostraého itervalu spolehlivosti pro středí hodotu μ při zámém rozptylu σ jsou: (-, h) = (-, m + V ašem případě dostáváme: h = 39,3 + u -α). 39 5, u 0,95 = 39,3 + Protože 4 (- ; 4,79), H 0 zamítáme a hladiě výzamosti 0,05. 39,645 = 4,79. 5, c) Test provedeme pomocí p-hodoty p = P(T 0 t 0 ) = Φ(-,7773) = 0,0378 Jelikož 0,0378 0,05, ulovou hypotézu zamítáme a hladiě výzamosti 0,05. Při řešeí tohoto příkladu použijeme systém STATISTICA pouze jako iteligetí kalkulátor.