Předáška VI. Itervalové odhady Motivace Směrodatá odchylka a směrodatá chyba Cetrálí limití věta Itervaly spolehlivosti
Opakováí estraé a MLE Jaký je pricip estraých odhadů? Jaký je pricip odhadů metodou MLE? Jak vypadají estraý a MLE odhad parametru?
Opakováí použití průměru a mediáu Jmeujte výhody a evýhody průměru a mediáu jako statistik pro odhad středí hodoty áhodé veličiy. Jmeujte příklad, kdy průměr je výhodější ež mediá, a příklad, kdy mediá je výhodější ež průměr.
. Motivace
Spolehlivost bodového odhadu Výběr číslo Výběr číslo Celá cílová populace 0 x R 0 x R 0 x R Pracujeme li s výběrem z cílové populace, je třeba a základě variability pozorovaých dat spočítat tzv. iterval spolehlivosti pro bodový odhad. ( ( 0 x R 0 x R Umíme li změřit celou cílovou populaci, epotřebujeme iterval spolehlivosti, protože jsme schopi odhadout sledovaý parametr přesě v praxi je tato situace ereálá. Iterval spolehlivosti a základě výběru číslo.
Itervalový odhad Bodový odhad je prvím krokem ve statistickém popisu dat. Co ám říká jedo číslo? Studie může publikovat číslo x, studie číslo x. Které je správější, lepší, přesější? Bodový odhad je sám o sobě edostatečý pro popis parametru rozděleí pravděpodobosti áhodé veličiy. Zajímá ás přesost (spolehlivost bodového odhadu.
. Variabilita pozorováí a variabilita výběrového průměru
Populace a áhodá veličia Cílová populace skupia subjektů, o které chceme zjistit ějakou iformaci. Realizujeme li áhodě výběr z cílové populace, dostaeme výběrovou populaci (experimetálí vzorek. Cílová populace Vzorek Zak áhodá veličia vlastost, která ás zajímá. Realizace áhodé veličiy reálé číslo, pozorovaá hodota a vybraém subjektu. Základí prostor Ω Náhodá veličia Náhodý výběr možia ezávislých áhodých veliči se stejým rozděleím:,,,. Realizace áhodého výběru reálá čísla, hodoty pozorovaé a výběrové populaci. Jev A ω 0 x R
Pravděpodobostí chováí áhodé veličiy F(x, f(x a p(x popisují chováí áhodé veličiy úplě, ale složitě. Dvě charakteristiky odráží vlastosti rozděleí jedím číslem: středí hodota a rozptyl. Odmocia z rozptylu je směrodatá odchylka. E(, D(, SD( Platí ásledující: Jedotlivé realizace áhodé veličiy vykazují variabilitu (dle SD(. Jakákoliv statistika (apř. průměr je jako trasformace áhodých veliči také áhodou veličiou. Má tedy i rozděleí pravděpodobosti. Jedotlivé realizace statistiky ad růzými áhodými výběry také vykazují variabilitu (opět úměrou SD(.
Co je zajímavé výběrový průměr Rozděleí pravděpodobosti výběrového průměru tím méě variabilí čím více pozorováí je v průměru zahruto. Rozděleí pravděpodobosti výběrového průměru se s rostoucím přestává podobat rozděleí původích dat a začíá se podobat rozděleí ormálímu. Proč?
Co je zajímavé výběrový průměr Rozděleí pravděpodobosti výběrového průměru tím méě variabilí čím více pozorováí je v průměru zahruto plye z vlastostí rozptylu trasformovaé áhodé veličiy. Rozděleí pravděpodobosti výběrového průměru se s rostoucím přestává podobat rozděleí původích dat a začíá se podobat rozděleí ormálímu plye z cetrálí limití věty.
Charakteristiky výběrového průměru Máme posloupost,, ezávislých, stejě rozděleých áhodých veliči, které mají koečou středí hodotu μ a rozptyl. i i i i i i i D SD D D E E N μ μ ( ( ( ( ( (, ( ~ Pro odhad, respektive statistiku, se tomuto výrazu říká směrodatá chyba ebo stadardí chyba ( stadard error a začí se SE.
Příklad výběrový průměr Základí prostor Ω Náhodá veličia Náhodý výběr,,, Výběrový průměr Jev A ω 0 x R 0 x x x 3 x 4 x 5 R 0 x R
Shrutí Směrodatá odchylka (SD eí směrodatá chyba popisé statistiky (SE! Směrodatá odchylka (SD je odrazem variability áhodé veličiy ve sledovaé populaci. Směrodatá chyba (SE je odrazem přesosti popisé statistiky jako odhadu středí hodoty áhodé veličiy. Pozor a rozdíl mezi SD a SE v člácích a kihách tabulkách a grafech!
Příklad výška člověka Náhodá veličia bude výška člověka: ~ N(75, 5, tedy uvažujme středí hodotu 75 cm a směrodatou odchylku 5 cm. Jak se chovají průměry pro áhodé výběry o velikosti 0, 00 a 000? Kód v R: x <- rep(0, 00 # vytvořím si vektor pro ukládáí průměrů for (i i :00 { pom <- rorm(0, 75, 5 x[i] <- mea(pom} # cyklus pro výpočet výběrových průměrů pro 0 hist(x, breaks0, xlimc(60,90 # vykresleí histogramu pro výběrové průměry pro 0 for (i i :00 { pom <- rorm(00, 75, 5 x[i] <- mea(pom} # cyklus pro výpočet výběrových průměrů pro 00 hist(x, breaks0, xlimc(60,90 # vykresleí histogramu pro výběrové průměry pro 00 for (i i :00 { pom <- rorm(000, 75, 5 x[i] <- mea(pom} # cyklus pro výpočet výběrových průměrů pro 000 hist(x, breaks0, xlimc(60,90 # vykresleí histogramu pro výběrové průměry pro 000
Příklad výška člověka Původí pozorováí mají rozsah hodot zhruba od 0 cm do 0 cm. Kde se pohybují jedotlivé průměry? Výběrové průměry ze vzorku 0 Výběrové průměry ze vzorku 00 Výběrové průměry ze vzorku 000
Příklad výška člověka Původí pozorováí mají rozsah hodot zhruba od 0 cm do 0 cm. Kde se pohybují jedotlivé průměry? Výběrové průměry ze vzorku 0 Výběrové průměry ze vzorku 00 Výběrové průměry ze vzorku 000 od 60 cm do 90 cm od 70 cm do 80 cm od 73 cm do 77 cm 5 5 5 N(75, N(75, N(75, ~ 0 ~ 00 3 ~ 000
3. Cetrálí limití věta
Připomeutí: stadardizace ormálího rozděleí Stadardizace je trasformace áhodé veličiy s N(μ, a N(0,. Důvod: řada statistických metod byla odvozea pro stadardizovaé ormálí rozděleí, N(0,. Děláme to tedy opět kvůli lepší možosti hodoceí dat. Teoretická stadardizace áhodé veličiy: Praktická stadardizace aměřeých hodot: U u i x i μ x s
Cetrálí limití věta Klíčová věta umožňující sestrojeí itervalových odhadů. Máme posloupost,, ezávislých, stejě rozděleých áhodých veliči, které mají koečou středí hodotu μ a rozptyl. Pak platí, že pro má suma i přibližě ormálí i i rozděleí pravděpodobosti.
Cetrálí limití věta Máme posloupost,, ezávislých, stejě rozděleých áhodých veliči, které mají koečou středí hodotu μ a rozptyl. Pak platí, že pro má výběrový průměr přibližě ormálí rozděleí se středí hodotou μ a rozptylem /. i i Tedy ( μ /( / rozděleí pravděpodobosti: lim Ρ( / má přibližě stadardizovaé ormálí x x μ u / π e du
CLV zjedodušeá iterpretace Pokud je rozděleí pravděpodobosti áhodé veličiy ormálí, pak je i rozděleí průměru pozorovaých hodot ormálí (a to i pro. Pokud rozděleí pravděpodobosti áhodé veličiy eí ormálí, pak je rozděleí průměru pozorovaých hodot přibližě ormálí, když je dostatečě velké (. Dostatečě velké zameá >30 pro rozděleí podobá ormálímu a > 00 pro rozděleí epodobá ormálímu.
Co je super Cetrálí limití věta fuguje i když rozděleí původí áhodé veličiy eí ormálí rozděleí pravděpodobosti. A dokoce i když eí spojité!
Příklad biomické rozděleí Chceme sledovat s jakou přesostí lze odhadout podíl hypertoiků v dospělé populaci ČR. Předpokládejme, že skutečý podíl dospělých s hypertezí je 0,. Náhodá veličia : osoba trpí / etrpí hypertezí. Pravděpodobostí fukce (alterativí rozděleí Ao Hyperteze Ne
Příklad biomické rozděleí Náhodá veličia S bude součet i, i,,. Náhodá veličia Y bude defiováa jako S/. E( S p D( S p( p E( Y E( S / p D( Y D( S / ( p( p / Jak se chová Y pro áhodé výběry o velikosti 0, 00 a 000? Kód v R: s <- rbiom(000, 0, 0. # vytvořím si 000 realizací veličiy S při 0 a p0, y <- s / 0 # S trasformuji a 000 realizací veličiy Y hist(y, breaks0, xlimc(0, # vykresleí histogramu pro výběrové průměry pro 0 s <- rbiom(000, 00, 0. # vytvořím si 000 realizací veličiy S při 00 a p0, y <- s / 00 # S trasformuji a 000 realizací veličiy Y hist(y, breaks0, xlimc(0, # vykresleí histogramu pro výběrové průměry pro 0 s <- rbiom(000, 000, 0. # vytvořím si 000 realizací veličiy S při 000 a p0, y <- s / 000 # S trasformuji a 000 realizací veličiy Y hist(y, breaks0, xlimc(0, # vykresleí histogramu pro výběrové průměry pro 000
Příklad biomické rozděleí 000 realizací veličiy Y při 0 000 realizací veličiy Y při 00 000 realizací veličiy Y při 000 p 0, p 0, p 0,
Příklad Poissoovo rozděleí
Co když ale ejde do ekoeča? Neí li velikost vzorku dostatečě velká, elze rozděleí výběrových průměrů považovat za ormálí. Aproximace Studetovým t rozděleím (viz předáška o jedotlivých rozděleí pravděpodobosti: Lze ho chápat jako aproximaci ormálího rozděleí pro malé vzorky, pro velké velikosti souborů koverguje k ormálímu rozděleí.
4. Itervalové odhady
Co je super pokračováí Cetrálí limití věta mi říká, že rozděleí pravděpodobosti výběrového průměru můžu při dostatečém aproximovat ormálím rozděleím. Když provedu stadardizaci, tak dokoce stadardizovaým ormálím rozděleím. x μ / lim ( u Ρ x e du / π / μ ~ N(0,
Iterval spolehlivosti Pricip vytvořeí itervalového odhadu pro výběrový průměr, respektive kostrukce itervalu spolehlivosti pro výběrový průměr, je shodý s teoretickým pozadím pravidla ±3. 68,3 % všech hodot 95,6 % všech hodot 99,7 % všech hodot
Připomeutí kvatilová fukce Iverzí fukce k distribučí fukci, výsledkem eí pravděpodobost, ale číslo a reálé ose, které odpovídá určité pravděpodobosti. Distribučí fukce F( x P( x Kvatilová fukce x p F ( P( x F ( p P Spojitá áhodá veličia x
Kvatily stadardizovaého ormálí rozděleí α / α α / 90 % 95 % Pravděpodobosti 99 % z 0,005,58,58 z 0,995 z 0,05,96,96 z 0,975 z 0,050,64,64 z 0,950 Kvatily
Kvatily stadardizovaého ormálí rozděleí α / α α / Oblast, kde se áhodá veličia se stadardizovaým ormálím rozděleím realizuje s pravděpodobostí α lze vyjádřit pomocí ásledujícího vztahu: 90 % 95 % 99 % P α α ( zα / Z z α / FN (0, ( z α / FN (0, ( zα / α
00( α% iterval spolehlivosti pro μ Máme áhodý výběr,,, z ormálího rozděleí. Budeme předpokládat, že záme! Z předchozího símku víme, že platí: Když si rozepíšeme a upravíme výraz a levé straě, dostaeme: 00( α% IS pro μ má tvar: α α α α α α α ( ( ( / (0, / (0, / / z F z F z Z z P N N, ( ~ μ N i ( ( ( / / / / / / / α μ α α α α α α z z P z Z z P z Z z P ( ( / / / / α α α α μ μ + z z P z z P ; (, ( / / α α + z z H D
00( α% iterval spolehlivosti pro μ Co te vzorec zameá? ( D, H ( z / ; + z / α α ~ N( μ, SE( Tedy zjedodušeě: 00( α% IS ± z / SE( α
Iterpretace itervalu spolehlivosti Poloha ezámého parametru je μ kostatí (jsme li frekvetisti! 95% iterval spolehlivosti má ásledující iterpretaci: Pokud bychom opakovaě vybírali skupiy 0 ( d x h ( d x h ( x 3 d 3 h 3 R cca 95 % ( d x h subjektů o stejé velikosti ( a počítali výběrový průměr s 95% IS, pak 95 % těchto itervalů spolehlivosti ezámý parametr obsahuje a 5 % ho eobsahuje. Tedy 95% IS obsahuje ezámý parametr s rizikem α. ( d 99 x 99 h 99 ( d 00 x 00 h 00 cca 5 % ( d x h
Co když ezáme? V předchozím případě jsme předpokládali, že záme přesou hodotu rozptylu / směrodaté odchylky. To je v praxi ereálé! Musíme použít jiou testovou statistiku s jiým rozděleím pravděpodobosti. Čím bychom mohli ahradit? K čemu to povede?
Co když ezáme? Musíme použít jiou testovou statistiku s jiým rozděleím pravděpodobosti. Čím bychom mohli ahradit? Logické je použít výběrovou směrodatou odchylku s. Náhrada ale eí úplě jedoduchá eí to dosazeí s za. s i ( x i x K čemu to bude? Pomocí s vytvoříme statistiku s chí kvadrát rozděleím (χ tu pak použijeme pro vytvořeí statistiky se Studetovým t rozděleím (viz předáška o jedotlivých rozděleích pravděpodobosti: ~ N(0,, Q ~ χ ( k T Q / k T ~ t( k
Co když ezáme? Lze ukázat, že statistika K s ~ χ ( Použijeme ještě stadardizovaou ormálí veličiu Z μ ~ / N(0, A obě dohromady použijeme pro vytvořeí T statistiky: T Z ( μ / μ T ~ t( K /( ( s /( s / Z toho plye tvar 00( α% itervalu spolehlivosti pro μ v případě, že ezáme hodotu : s s ( D, H ( t / ( ; + t / ( α α
Příklad kostrukce itervalu spolehlivosti Chceme sestrojit 95% IS pro odhad středí hodoty systolického tlaku studetů vysokých škol. 00 3,4 mm Hg s SD 4,0 mm Hg SE 4 / 00,4 mm Hg t α / (,98 z tabulek aměřeé hodoty s s 95% IS ( D, H ( t α / ( ; + t α / ( 4,0 4,0 95% IS ( D, H (3,4 t (99;3,4 t 0,05/ (99 00 0,05/ + 00 95 % IS ( D, H (0,6;6,
Šířka itervalu spolehlivosti Co ovlivňuje šířku itervalu spolehlivosti? s s 00( α% IS pro μ ( D, H ( t / ( ; + t / ( α α. Velikost vzorku s rostoucí velikostí vzorku je IS užší (máme více iformace a odhad je přesější, zároveň se kvatily t rozděleí blíží kvatilům stadardizovaého ormálího rozděleí.. Variabilita áhodé veličiy 3. Spolehlivost, kterou požadujeme
Šířka itervalu spolehlivosti Co ovlivňuje šířku itervalu spolehlivosti? s s 00( α% IS pro μ ( D, H ( t / ( ; + t / ( α α. Velikost vzorku. Variabilita áhodé veličiy čím áhodá veličia vykazuje větší variabilitu, tím je IS pro odhad středí hodoty širší, tedy odhad je méě přesý. 3. Spolehlivost, kterou požadujeme
Šířka itervalu spolehlivosti Co ovlivňuje šířku itervalu spolehlivosti? s s 00( α% IS pro μ ( D, H ( t / ( ; + t / ( α α. Velikost vzorku. Variabilita áhodé veličiy 3. Spolehlivost, kterou požadujeme chceme li mít větší jistotu, že áš IS pokrývá ezámou středí hodotu, IS musí být samozřejmě širší, stačí li ám meší spolehlivost, bude užší. Stadardě se používá 95% IS (ale také 90% aebo 99%
Pozámka Lze vytvořit i IS pro odhad parametru, který je založe a již zmíěé statistice K. K s ~ χ ( Lze vytvořit i IS pro odhad podílu dvou parametrů a (pomocí F statistiky. Te lze použít pro hodoceí homogeity rozptylů dvou výběrů, která je jedím z předpokladů v testováí hypotéz.
Pozámka Velmi důležitý je i IS pro odhad středí hodoty rozdílu dvou áhodých veliči. Záme li a, provedeme stadardizaci a pak odvodíme 00( α% IS: Nezáme li a, použijeme statistiky K a K, abychom se zbavili a, výsledá statistika má opět Studetovo t rozděleí., ( ~ μ N, ( ~ μ N Y, ( ~ N Y μ μ +, ( ~ N μ, ( ~ N Y μ (!! / / z Y z Y P α α μ μ α + + + ( ( ( / / s s s s t Y t Y P + + + + + α α μ μ α
Příklad Radiofrekvečí ablace tkáě sliivky břiší u prasat. Sledujeme vliv typu chlazeí okolích struktur (A žádé, B průplach vodou a ejvětší rozměr ekrózy. Zajímá ás rozdíl v efektu obou typů chlazeí a jeho 95% IS. A B 8 7 x x A B 5, mm,8 mm SD SD A B s s A B 0,8,4 SE SE A B 0,8/,4 / 8 0,9 mm 7 0,58 mm Dosadíme do vzorce s použitím příslušého t kvatilu: t0,975(8 + 7,03 α sa sb sa P ( x x t ( + + μ μ x x + t ( + + A B s α / A B A B A B A B α / A B A B B,4 ( 3,3 (33 3,3 (33 0,8 0,8,4 P t0,975 + μ A μb + t0,975 8 + 7 8 7 A B P(, μ μ 4,5
Pozámka 3 Iterval spolehlivosti počítá pouze s variabilitou daou áhodým výběrem, epočítá se zdroji systematického zkresleí. Příklady: Měřeí krevího tlaku může být systematicky zkresleo starým měřidlem ( techical bias. Měřeí krevího tlaku může být systematicky zkresleo tím, že se do studie přihlásí pouze určitá skupia osob ( selectio bias.
Neparametrické metody pro kostrukci IS Variabilitu výběrového průměru lze odhadout i pomocí eparametrických metod: Bootstrap je založe a pricipu opakovaého vzorkováí aměřeých dat s vraceím, kdy pro vytvořeí ového vzorku dat může být každý prvek použit více ež jedou, právě jedou aebo eí použit vůbec (ovšem se zachováím celkové velikosti souboru i velikosti jedotlivých skupi. Jackkife opakovaý výpočet sledovaé charakteristiky je provádě vždy s vyecháím právě jedoho pozorováí. Teto postup ám stejě jako v případě metody bootstrap poskytuje představu o rozsahu hodot, ve kterých se ámi sledovaá charakteristika může pohybovat, budeme li považovat aměřeá data za reprezetativí vzorek z cílové populace.
Příklad Máme áhodý výběr o velikosti 00 z N(0,. Vytvoříme 95% IS pro průměr pomocí směrodaté chyby a pomocí metody bootstrap (000 bootstrap vzorků. x 0,079 ( d, h ( 0,6; 0,84 ( d, h ( 0,33; 0,64
Poděkováí Rozvoj studijího oboru Matematická biologie PřFMU Bro je fiačě podporová prostředky projektu ESF č. CZ..07/..00/07.038 Víceoborová iovace studia Matematické biologie a státím rozpočtem České republiky