Cvičení z NSTP097 14. 12. 2009



Podobné dokumenty
Pracovní text a úkoly ke cvičením MF002

Matematická statistika Zimní semestr Testy o proporci

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Matematická statistika Zimní semestr

Základní popisné statistiky a grafy

Základní popisné statistiky a grafy

Matematická statistika Zimní semestr

KGG/STG Statistika pro geografy

Testy o proporci a testy v multinomickém rozdělení

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

1. Přednáška. Ing. Miroslav Šulai, MBA

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Lineární regrese. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

= = 2368

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tomáš Karel LS 2012/2013

8 Střední hodnota a rozptyl

4EK211 Základy ekonometrie

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Protokol č. 1. Tloušťková struktura. Zadání:

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Výběrové charakteristiky a jejich rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Kontingenční tabulky a testy shody

Y n = I[X i > m 0 ],

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Biostatistika Cvičení 7

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

4EK211 Základy ekonometrie

pracovní list studenta

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Odhad parametrů N(µ, σ 2 )

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

4EK211 Základy ekonometrie

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Bodové odhady parametrů a výstupů

Úloha 3 editor a skripty. připojte se vzdáleně na dray6.feld.cvut.cz heslo získáte na adrese

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Regresní analýza 1. Regresní analýza

SEMESTRÁLNÍ PRÁCE Z X37SAS Zadání č. 7

Normální (Gaussovo) rozdělení

Intervalové Odhady Parametrů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Fyzikální korespondenční seminář MFF UK

Stavový model a Kalmanův filtr

Popisná statistika. Komentované řešení pomocí MS Excel

- funkce, které integrujete aproximujte jejich Taylorovými řadami a ty následně zintegrujte. V obou případech vyzkoušejte Taylorovy řady

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

8. Normální rozdělení

Pravděpodobnost a matematická statistika

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

MATEMATIKA III V PŘÍKLADECH

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Náhodná veličina X má Poissonovo rozdělení se střední hodnotou lambda. Poissonovo rozdělení je definováno jako. P(X=k) = 0,036

KORELACE. Komentované řešení pomocí programu Statistica

Výsledný graf ukazuje následující obrázek.

Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Jednovýběrové testy. Komentované řešení pomocí MS Excel

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Příklady k prvnímu testu - Matlab

Grafy relací s absolutními hodnotami

Příklady k druhému testu - Matlab

2. Bodové a intervalové rozložení četností

Poznámky k předmětu Aplikovaná statistika, 4. téma

Matematická statistika Zimní semestr

Porovnání dvou výběrů

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Regresní a korelační analýza

Úvod do Matlabu. Praha & EU: Investujeme do vaší budoucnosti. 1 / 24 Úvod do Matlabu

Stochastické signály (opáčko)

Programování v jazyku LOGO - úvod

Poznámky k předmětu Aplikovaná statistika, 4. téma

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Cvičení ze statistiky - 8. Filip Děchtěrenko

Odhady - Sdružené rozdělení pravděpodobnosti

Téma 22. Ondřej Nývlt

15. T e s t o v á n í h y p o t é z

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Národníinformačnístředisko pro podporu jakosti

11MAMY LS 2017/2018. Úvod do Matlabu. 21. února Skupina 01. reseni2.m a tak dále + M souborem zadané funkce z příkladu 3 + souborem skupina.

+ 2 = 1 pomocí metody dělení definičního oboru. ( )

y = 0, ,19716x.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Transkript:

Cvičení z NSTP097 14. 12. 2009 Empirická distribuční funkce, intervalové odhady Úvodní nastavení. Ze stránky www.karlin.mff.cuni.cz/~omelka/vyuka_stp097.php si stáhněte soubor cviceni2.rdata. Otevřete si program R a pomocí File/Load_Workspace... si načtěte do R tento soubor cviceni2.rdata. Zkontrolujte, že se načtení povedlo úspěšně: Po zavolání příkazu ls() musí být mezi vypsanými objekty nové funkce gnp, plotci a ci.asym a datový soubor pneu. Alternativně (a asi jednodušeji) můžete zkusit: load(url("http://www.karlin.mff.cuni.cz/ omelka/soubory/stp097/cviceni2.rdata")) Potom ovšem nebudete mít soubor cviceni2.rdata uložen ve svém adresáři. Následující úlohy řešte samostatně. Svůj zdrojový kód si pište do speciálního skriptu, ať se k němu můžete později vrátit. Speciálním skriptem rozumím textový soubor, který si můžete pojmenovat např. cviceni2.r. Do něj si pište ve svém oblíbeném textovém editoru, případně v editoru, který nabízí program R File/New script či File/Open script. Touto barvou budou psány věci, nad kterými byste se měli zamyslet. Touto barvou budou psány vysvětlení k některým příkazům z R. Poznámka k nápovědě : Bohužel na instalaci na počítačích Windows v počítačové učebně nefunguje standardní nápověda, kdy do řádku napíši přímo?plot nebo help(plot). Jde využít html nápověda, kterou vyvoláme pomocí help.start(), anebo se k ní lze proklikat pomocí menu Help/... Ta však není příliš šikovná, pokud znám přesný název funkce. Jde však použít úkrok stranou. Pomocí programu putty se přihlásíte k serveru artax.karlin.mff.cuni.cz. Zde zadáte svůj login a heslo a po úspěšném přihlášení pomocí příkazu R spustíte R-ko. V tomto prostředí by měla nápověda?plot nebo help(plot) fungovat. Věřím, že na Vaší domácí instalaci R-ka už nebude tento úkrok stranou potřeba. Úloha 1: Empirická distribuční funkce Zopakování: Nechť X 1,..., X n je náhodný výběr. Potom empirická distribuční funkce je dána vzorcem n ˆF n (x) = I{X i x} a je odhadem teoretické distribuční funkce kterou zpravidla neznáme. i=1 F (x) = P (X 1 x), Empirickou distribuční funkci počítá funkce ecdf(x). Její argument x je vektor představující náhodný výběr. Jejím výsledkem je objekt, který můžeme pod nějakým jménem uschovat a

dále zpracovávat. Vzpomeňte si na přesnou definici empirické distribuční funkce ˆF n. Uvědomte si, že jde o náhodnou veličinu. Jaké rozdělení má ˆF n (x)? Co víte o jejím limitním chování? Spočtěte a nakreslete si empirickou distribuční funkci náhodného výběru z normovaného normálního rozdělení, tj. N(0, 1), o rozsahu 25 pozorování. Postupujte následovně: 1. Vygenerujte a uschovejte si náhodný výběr z normovaného normálního rozdělení x = rnorm(25) Tento příkaz generuje výběr z normálního rozdělení (víme z minula). Jestliže neupřesníme parametry mean a sd, tj. střední hodnotu a směrodatnou odchylku, bere R defaultně N(0, 1). Připomínám možnost nastavení parametru set.seed před voláním pseudonáhodných čísel. 2. Spočtěte empirickou distribuční funkci tohoto výběru. Označím ji např. ef (můžete použít jiný název) ef = ecdf(x) 3. Objekt ef se chová jako funkce, tj. můžeme spočítat hodnoty v libovolném bodě nebo bodech. Zkuste spočítat hodnotu této empirické distribuční funkce v bodě 0 ef(0) Jaká je hodnota skutečné distribuční funkce rozdělení N(0, 1) v bodě 0? (Uvědomte si, že je toto rozdělení symetrické.) 4. Nakreslete obrázek: plot(ef). Nyní vše zopakujte pro beta rozdělení s parametry α = β = 0.5 a rozsah výběru n = 35. Abychom věděli, s jakým rozdělením pracujeme, vykreslete si nejprve hustotu B(0.5, 0.5) curve(dbeta(x,alpha,beta),0,1) Náhodný výběr z B(α, β) o rozsahu n dostanete příkazem x=rbeta(n,alpha,beta). Nezapomeňte za parametry alpha, beta dosadit, anebo je definovat. Spočtěte opět distribuční funkci a nakreslete obrázek. Chování distribuční funkce při rostoucím počtu pozorování: Úkol: Podívejme se, jak se při vzrůstajícím počtu pozorování přibližuje empirická distribuční funkce skutečné distribuční funkci. Nakreslíme si empirickou distribuční funkci pro čtyři výběry z N(0, 1) o rozsahu 10, 50, 500 a 2000. Každým obrázkem proložíme skutečnou distribuční funkci a dáme si je na jeden list. Taktéž spočítáme maximální absolutní rozdíl mezi skutečnou a empirickou distribuční funkcí. Řešení: Jádrem výpočtu je připravená funkce gnp, kterou jste si natáhli ze souboru cviceni2.rdata. Vypište si, jak vypadá tato funkce. print(gnp) Jejím jediným argumentem je rozsah výběru n. Funkce vygeneruje data z N(0, 1) a vyrobí obrázek empirické distribuční funkce a skutečné distribuční funkce, přitom vrací maximální rozdíl mezi empirickou a skutečnou distribuční funkcí. Pokuste se z kódu pochopit, co vlastně tato funkce dělá. Chceme-li počítat rozdíl sup x R ˆF n (x) F (x), na které body x se můžeme omezit? Obrázky zakreslíme do jednoho panelu tak, že před voláním funkce gnp napíšeme příkaz par(mfrow=c(2,2)). Měli jsme už minule. Nastavuje okno pro obrázky, aby se do něj nakreslily 4 obrázky v matici 2x2. Tento příkaz Vám otevře prázdné grafické okno, které nezavírejte. 2

Pak čtyřikrát zavoláme gnp s argumentem 10, 50, 500 a 2000 gnp(10); gnp(50); gnp(500); gnp(2000) Co pozorujete na obrázku? Co o tom víte z teorie? Z které věty vyplývá, že ˆF n (x) F (x) při n pro všechna x R? A která věta hovoří o chování sup x R ˆF n (x) F (x)? Nakonec uvedeme grafiku do původního stavu par(mfrow=c(1,1)). Úloha 2: Odhady Data pneu obsahují měření životnosti pneumatik (v tisících km jízdy) dvěma metodami: měření pomocí úbytku hmotnosti pneumatiky (veličina met.v) a měření pomocí úbytku hloubky dezénu (veličina met.d). Zobrazte si celá data: Prostě napište pneu. Uvědomte si, že jde o měření stejné věci dvěma různými způsoby. Tj. jeden řádek odpovídá vždy měření na jedné pneumatice. Podle toho, co vidíte, co soudíte o daných dvou způsobech měření? Kolik bylo celkem pneumatik? Stačí napsat dim(pneu). Jednotlivé veličiny (sloupce) můžete získat jako pneu$met.v a pneu$met.d. Abychom k nim měli přímý přístup, zavoláme attach(pneu) Nyní už stačí psát jen met.v a met.d. Toto je mnohem pohodlnější. Už nemusíme psát název dat a $. Pokud by Vám to přestalo vyhovovat, napíšete detach(pneu). Spočítejte průměry a výběrovou rozptylovou matici obou veličin: mean(pneu) var(pneu). Co odhadují prvky výběrové rozptylové matice? Spočítejte také výběrovou korelační matici cor(pneu). Interpretujte tyto hodnoty. Co měří korelace? Očekávali jsme takové hodnoty nebo ne? Graficky porovnejte empirické distribuční funkce obou měření: a = ecdf(met.v) b = ecdf(met.d) plot(a) lines(b,lty=2) Nejprve vykreslíme graf empirické distribuční funkce prvního měření a pak do něj pomocí funkce lines přidáme druhou distribuční funkci. Parametr lty volí typ čáry 1 je plná, 2 je přerušovaná, 3 tečkovaná atd. Chcete-li si tyto dvě funkce raději odlišit barevně napište místo posledního příkazu lines(b, col.hor="red", col.points="red"). Spočítejte asymptotické intervaly spolehlivosti pro střední hodnotu obou měření. Použijte funkci ci.asym(x), která počítá tři čísla: X n u 1 α/2 S n n, Xn, a X n + u 1 α/2 S n n 3

pro α = 0.05. Ujistěte se, že víte, co znamenají všechny uvedené znaky a písmena, a že je umíte počítat v R. Jak spočtete např. hodnotu u 1 α/2? Zavolejte ci.asym(met.v); ci.asym(met.d) Jaká je pravděpodobnost pokrytí skutečné střední hodnoty tímto intervalem? Pozor, jedná se o asymptotický interval spolehlivosti, proto je potřeba vše interpretovat asymptoticky. V jakých situacích umíte počítat přesný interval spolehlivosti pro střední hodnotu? Přesvědčte se (graficky) o tom, že v tomto našem případě tyto předpoklady nejsou splněny. Úloha 3: Intervaly spolehlivosti Vygenerujte náhodný výběr o rozsahu n = 20 z normálního rozdělení s parametry µ = 2 a σ 2 = 1, tj. N(2, 1), příkazem smp = rnorm(20,2,1). Sestrojte asymptotický interval spolehlivosti pro µ pomocí funkce ci.asym. Líbí se Vám tento interval? Co od něj čekáme? Nyní získáme N = 100 náhodných výběrů o rozsahu n = 20 a sestavíme je do matice: nobs = 20 nvyb = 100 data.mat = matrix(rnorm(nobs*nvyb,2,1),nrow=nobs,ncol=nvyb) Parametr nobs je n, nvyb je N. V řádcích matice data.mat jsou pozorování, ve sloupcích jsou jednotlivé výběry. Tj. rozměr této matice je nobs řádků a nvyb sloupců. Nyní spočítáme intervaly spolehlivosti (pro EX = µ = 2) pro každý ze 100 výběrů: vs.ci = apply(data.mat,2,ci.asym) Funkce apply použije na matici data.mat po sloupcích (volba 2, volba 1 by odpovídala řádkům) funkci ci.asym. Můžete si tyto intervaly vypsat (pozor, je toho hodně) vs.ci a nakreslit pomocí funkce plotci (kterou jste získali zavoláním cviceni2.rdata na začátku této hodiny): co = 1:100 plotci(vs.ci[2,co],uiw=(vs.ci[3,co]-vs.ci[1,co])/2,gap=0.15,sfrac=0.002, ylab="int. spol. pro str. hodnotu",xlab="vyber") abline(h=2,col="red") Funkce abline kreslí lineární funkce (tj čáry). Při volbě h=2 kreslí horizontální, tj. vodorovnou, čáru v bodě 2. Další volby zjistíte vyvoláním nápovědy?abline. Vodorovná červená čára vyznačuje skutečnou střední hodnotu. Kolik intervalů by ji mělo pokrývat? Můžeme spočítat, jaké procento intervalů ji skutečně pokrývá: 4

sum(vs.ci[1,]<2 & 2<vs.ci[3,])/nvyb Nejdříve pomocí funkce sum spočítáme, kolik intervalů splňuje podmínku, že dolní mez je menší než 2 a zároveň horní mez je větší než 2. Tím máme počet takových intervalů. Chceme-li procento, musíme to ještě vydělit počtem všech intervalů, tj. nvyb. Jak to tedy je s pokrytím skutečné střední hodnoty? Jak byste vysvětlili rozdíl mezi tím, co vidíte, a tím, co očekáváte? Také si můžeme odhadnout střední délku intervalu spolehlivosti: mean(vs.ci[3,]-vs.ci[1,]). Nyní opravte počet výběrů z N(2, 1) na N = 1000 (abychom lépe odhadli jejich pokrytí a střední délku) a udělejte 1000 intervalů spolehlivosti pro výběry o rozsahu 20, 100 a 1000. To znamená, že pro nobs rovno postupně 20, 100 a 1000 a nvyb = 1000 proveďte data.mat = matrix(rnorm(nobs*nvyb,2,1),nrow=nobs,ncol=nvyb) vs.ci = apply(data.mat,2,ci.asym) sum(vs.ci[1,]<2 & 2<vs.ci[3,])/nvyb mean(vs.ci[3,]-vs.ci[1,]) Skutečné pokrytí pro různé rozsahy výběrů přijďte napsat na tabuli. Jak se mění pokrytí a délka těchto intervalů v závislosti na velikosti výběru? Připomeňte si, jaká je skutečná délka intervalu pro konkrétní n (viz vzorec výše). Jaké bude její chování při n? Nyní změňte rozdělení a opakujte celou úlohu s exponenciálním rozdělením Exp(5) místo N(2, 1). Výběr z exponenciálního rozdělení o rozsahu n dostanete pomocí příkazu x=rexp(n,5). Spočtěte nejdřív interval spolehlivosti pro jeden výběr o rozsahu n = 20. Jaká je skutečná střední hodnota tohoto rozdělení? Spočítejte si opět 100 intervalů spolehlivosti a nakreslete obrázek, tj. nobs = 20 nvyb = 100 data.mat = matrix(rexp(nobs*nvyb,5),nrow=nobs,ncol=nvyb) vs.ci = apply(data.mat,2,ci.asym) co = 1:100 plotci(vs.ci[2,co],uiw=(vs.ci[3,co]-vs.ci[1,co])/2,gap=0.15,sfrac=0.002, ylab="int. spol. pro str. hodnotu",xlab="vyber") abline(h=1/5,col="red") Podívejte se opět, jak se mění pokrytí a délka intervalů spolehlivosti pro střední hodnotu v závislosti na velikosti výběru n = 20, 100, 1000. Je situace v něčem jiná než u normálního rozdělení? Proč? Na čem je založen asymptotický interval spolehlivosti? Přesný interval spolehlivosti. Pro normální rozdělení N(µ, σ 2 ) známe předpisy pro přesné intervaly spolehlivosti pro střední hodnotu µ. V případě, že náš náhodný výběr pochází z normálního rozdělení, použijeme tento přesný interval spolehlivosti (a nikoliv asymptotický). Z před- 5

nášky víte, že jiný interval použijeme v situaci, kdy σ 2 známe, a jiný, jestliže rozptyl neznáme. V praxi většinou rozptyl neznáme, proto se budeme dívat na druhý zmíněný případ. Při neznámém σ 2 je interval spolehlivosti pro µ na hladině spolehlivosti 1 α dán jako ( ) S n S X n t n 1,1 α/2 n, Xn + t n 1,1 α/2 n n Opět se ujistěte, že víte co jednotlivé hodnoty znamenají. Jak byste v R počítali t n 1,1 α/2? Nagenerujte si výběr z normálního rozdělení N(3, 1) o rozsahu n = 25 x=rnorm(25,3,1) Interval spolehlivosti pro α = 0.05 můžeme dostat zavoláním t.test(x)$conf.int[1:2]. Funkce t.test provádí jednovýběrový a dvouvýběrový t-test, s tím se ještě blíže seznáme později. Teď si z toho pouze vytáhneme interval spolehlivosti, tj. conf.int. Pro rozsahy n = 25, 100, 1000 a 5000 postupně nagenerejtu výběr z N(3, 1) a spočítejte přesný i asymptotický interval spolehlivosti a porovnejte. Co vidíte? V čem se liší přesný a asymptotický interval (co se týče vzorce)? Co víte o chování t n -rozdělení při rostoucím n? 6