Cvi ení 7. Docházka a testík - 15 min. Distfun 10 min. Úloha 1

Podobné dokumenty
1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

na za átku se denuje náhodná veli ina

T i hlavní v ty pravd podobnosti

Vektor náhodných veli in - práce s více prom nnými

1 Pravd podobnost - plán p edná²ek. 2 Pravd podobnost - plán cvi ení

P íklad 1 (Náhodná veli ina)

Práce s daty. 2. února Do tohoto adresá e stáhn te ze stránek soubory data.dat a Nacti_data.sci.

P íklady k druhému testu - Matlab

Regrese a nelineární regrese

Domácí úkol 2. Obecné pokyny. Dbejte na formáln správný zápis výpo tu! Pro vy íslení výsledku pro binomické rozd lení pouºijte nap. Maple nebo Matlab.

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testování statistických hypotéz

5 Parametrické testy hypotéz

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testy. Pavel Provinský. 19. listopadu 2013

P íklady k prvnímu testu - Scilab

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

Skalární sou in. Úvod. Denice skalárního sou inu

Intervalové Odhady Parametrů

Testování statistických hypotéz

5. Odhady parametrů. KGG/STG Zimní semestr

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

ST2 - Cvi ení 1 STATISTICKÁ INDUKCE

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Charakteristika datového souboru

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

P íklady k prvnímu testu - Pravd podobnost

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Unfolding - uºivatelský manuál

Jevy, nezávislost, Bayesova v ta

Normální (Gaussovo) rozdělení

ST2 - Cvi ení 1 STATISTICKÁ INDUKCE

Zápočtová práce STATISTIKA I

Normální (Gaussovo) rozdělení

12. cvičení z PST. 20. prosince 2017

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Ing. Michael Rost, Ph.D.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Testy pro více veli in

Pravd podobnost a statistika - cvi ení. Simona Domesová místnost: RA310 (budova CPIT) web:

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové Odhady Parametrů II Testování Hypotéz

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Základní statistické metody v rizikovém inženýrství

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

4EK211 Základy ekonometrie

Praktická statistika. Petr Ponížil Eva Kutálková

Vybrané funkce v programu Scilab z oblasti pravd podobnost a statistika. Pavla Pecherková, Ivan Nagy

Cvičení ze statistiky - 8. Filip Děchtěrenko

= = 2368

Pravděpodobnost a matematická statistika

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

12. prosince n pro n = n = 30 = S X

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

STATISTICKÉ HYPOTÉZY

Limity funkcí v nevlastních bodech. Obsah

Testování statistických hypotéz. Obecný postup

Binární operace. Úvod. Pomocný text

Aproximace binomického rozdělení normálním

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Vybranné funkce v programu Scilab z oblasti pravd podobnost a statistika. Pavla Pecherková, Ivan Nagy, Pavel Provinský

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

y = 0, ,19716x.

15. T e s t o v á n í h y p o t é z

Integrování jako opak derivování

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Odhad parametrů N(µ, σ 2 )

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

ADDS cviceni. Pavlina Kuranova

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Pravděpodobnost a aplikovaná statistika

1 Spo jité náhodné veli iny

Fyzikální korespondenční seminář MFF UK

Odhady - Sdružené rozdělení pravděpodobnosti

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Derivování sloºené funkce

2 ) 4, Φ 1 (1 0,005)

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

IDENTIFIKACE BIMODALITY V DATECH

TROJFÁZOVÝ OBVOD SE SPOT EBI EM ZAPOJENÝM DO HV ZDY A DO TROJÚHELNÍKU

5. T e s t o v á n í h y p o t é z

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Transkript:

Cvi ení 7 Úkol: generování dat dle rozd lení, vykreslení rozd lení psti, odhad rozd lení dle dat, bodový odhad parametr, centrální limitní v ta, balí ek Distfun, normalizace Docházka a testík - 15 min. Distfun 10 min. Zapnutí Scilabu, seznámení s balí kem Distfun (Atoms, Data Analysis and Statistic). Tvar funkcí: distfun_xy(...), kde x je ozna ení rozd lení: bino, poiss, norm, exp,... y je koncovka, co chci d lat: rnd - generování dat pdf - rozd lení psti cdf - distribu ní fce inv - kvantily Help k funkci najdu tak, ºe na ni kliknu pravým tla ítkem a najdu help. Tím zjistím, jak psát parametry. Úloha 1 Generování dat Generujte 10000 hodnot rovnom rného rozd lení mezi 0 a 1. Toto opakujte 20-krát. P íslu²né hodnoty on ch 20-ti rozd lení se t te. Sou et pojmenujte Y. Data Y uloºte do souboru. y=zeros(1,10000); for n=1:20; x=rand(1,10000,'uniform'); y=y+x; end save Data y 1

Analýza dat Nový soubor: Nahrajte data Y a vykreslete histogram. Jaké rozd lení nejlépe odpovídá dat m Y? Pro? (Normální, centrální limitní v ta) load Data y; histplot(40,y); Jaká konkrétní gaussovka nejlépe odpovídá dat m? Prove te bodový odhad parametr metodou moment. Vypi²te výb rovou st ední hodnotu, rozptyl a sm rodatnou odchylku. Gaussovku s nalezenými parametry vykreslete k histogramu erven. stred_h=mean(y) rozptyl=variance(y) sm_odch=sqrt(rozptyl) X=5:0.1:15; Y=distfun_normpdf(X,stred_h,sm_odch); plot(x,y,'red'); Analýza rozd lení Pro vy²la výb rová st ední hodnota blízká íslu 10? (P i s ítání n. veli in se s ítají st. hodnoty. St. h. rovnom rného rozd lení od 0 do 1 je: a+b 2 = 1 2.) Pro vy²el výb rový rozptyl blízký íslu 20? (P i s ítání n. veli in se s ítají i rozptyly. Rozptyl rovnom rného rozd lení od 0 do 1 je: (b a)2 = 1.) Nyní p ipomeneme, ºe ve statistice m ºeme mít ty i r zné situace: známe data kompletní = základní soubor nekompletní = výb r známe rozd lení diskrétní spojité Nyní se m ºeme od situace, kdy známe data, p enést do situace, kdy známe rozd lení. Tedy se p esuneme z druhého na tvrtý ádek. Úpln správná gaussovka má st. h. 10 a rozptyl 20. Vykreslete ji do stejného obrázku mod e. Z=distfun_normpdf(X,10,sqrt(20/)); plot(x,z,'blue'); Vidíme, ºe jsme správnou k ivku odhadli velice p esn. V²ak máme 10000 dat. Intervalový odhad dat Najd te interval, kam by m lo padnout 90% nejpravd podobn j²ích dat y. Jak to ud lat? U ízneme z kaºdé strany 5%. K tomu pot ebujeme 5%-ní a 95%-ní kvantil. Vrátíme se do situace, kdy známe jen data a budeme pracovat s ervenou k ivkou. 2

KV05=distfun_norminv(0.05,stred_h,sm_odch) KV95=distfun_norminv(0.95,stred_h,sm_odch) Spo etli jsme kvantily. Je pst, ºe hodnota y padne mezi n, opravdu 90%? Ov te pomocí distribu ní funkce. F1=distfun_normcdf(KV05,stred_h,sm_odch) F2=distfun_normcdf(KV95,stred_h,sm_odch) P=F2-F1 Statistický balí ek Nainstalujeme. Seznámíme je se statistickým balí kem. Na Pavliných stránkách otev eme návod k balí ku. Pracovní adresá musíme otev ít v adresá i, kde je balí ek nainstalován!!! Tedy musíme vid t podadresá e help, kombinatorika, pravdepodobnost, statistika a soubor spust_pri_startu. Nejprve musíme spustit soubor spust_pri_startu. Intervalový odhad st ední hodnoty Najd te 90%-ní interval spolehlivosti pro skute nou st ední hodnotu µ. Rozptyl neznáme, jen odhadujeme z dat. Proto t-int. [a,b]=t_int(stred_h,rozptyl,10000,'o',0.1) My víme, ºe správná hodnota µ je p esn 10. Jaká je pst, ºe 10 v na²em intervalu v bec nebude? Stalo se to n komu? Kdyºtak to m ºeme zkusit n kolikrát. (Pst je 10% - Máme 90%-ní interval.) Intervalový odhad rozptylu Samostatn ud lejte 90%-ní interval spolehlivosti pro rozptyl. [a,b]=var_int(rozptyl,10000,'o',0.1) Treli jste hodnotu 20 = 1, 667? Jaká je pst, ºe správnou hodnotu mineme? (10%) Co proti tomu m ºeme ud lat? (Dát víceprocentní interval.) Test st ední hodnoty Test a intervalový odhad je tém totéº. Jen je otázka jinak formulována. Prove te na datech y test, ºe st ední hodnota µ = 10. Test prove te na hladin významnosti α = 0, 1. Nolová hypotéza: µ = 10. [p,t,kvantil]=t_test(10,stred_h,rozptyl,10000,'o',0.1) 3

Výsledkem testu je p-hodnota. Pokud je p-hodnota men²í neº α, pak nulovou hypotézu zamítáme. Musíme v²ak uvést, ºe máme x -procentní pravd podobnost, ºe se mýlíme. Ono x je práv p-hodnota. Tedy nap. α = 0, 1 a p-hodnota = 0,03. Tedy zamítáme hypotézu, ºe µ = 10, máme v²ak 3%, ºe se mýlíme. Obvykle se to formuluje takto: Nulovou hypotézu na hladin významnosti 10% zamítáme. Nebo: Získali jsme p-hodnotu 3%, tedy nulovou hypotézu zamítáme. Pokud je p-hodnota v t²í neº α, pak nulovou hypotézu nezamítáme. To znamená, ºe data nejsou v tak p íkrém rozporu s nulovou hypotézou, abychom ji byli nuceni zamítnout. Nulová hypotéza m ºe, ale nemusí platit. Nevíme. Zajímav j²ím výsledkem je rozhodn zamítnutí nulové hypotézy. V²imn te si, ºe nulovou hypotézu zamítám práv tehdy, kdyº se mi správná hodnota 10 nevejde do odhadnutého intervalu. Obojí se d je v 10% p ípad. To je práv ta podobnost mezi 90%-ním intervalem a testem na 10%-ní hladin významnosti. Test rozptylu Samostatn prove te test rozptylu na hladin významnosti α = 0, 1. Nulová hypotéza: σ 2 = 20. Pozor! V nápov d je chyba! Správné po adí parametr je následující: [p,t,kvantil]=var_test(20/,rozptyl,10000,'o',0.1) Normování Nový soubor. Nahrajte data y. Ode t te od nich jejich st ední hodnotu. Výsledek pod lte jejich sm rodatnou odchylkou. Jaké rozd lení a s jakými parametry dostanete? (N(0,1)) Vykreslete histogram i hustotu psti. mode(0) load Data y; y=y-mean(y); y=y/stdev(y); histplot(40,y); X=-3:0.01:3; Y=distfun_normpdf(X,0,1); plot(x,y); 4

Úloha 2 Generování dat Vygenerujte 1001 dat s rovnom rným rozd lením od 0 do 100. M ºeme si p edstavovat, ºe to jsou nap. auta na 100 km silnice. Zjist te jejich rozestupy. Tj. data srovnejte a od následujícího ode t te p edchozí. Tyto rozestupy nazv te R. Analýza dat Vykreslete histogram. Jaké rozd lení nejlépe popisuje data? (Exponenciální - Poissonovský dopravní proud má exponenciální rozd lení rozestup.) Bodov odhadn te parametr a p íslu²nou hustotu psti vykteslete do histogramu. x=distfun_unifrnd(0,100,1,1001); x=gsort(x); for n=1:1000 R(n)=x(n)-x(n+1); end histplot(30,r); D=mean(R) X=0:0.01:0.7; Y=distfun_exppdf(X,D); plot(x,y); 5