STP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY



Podobné dokumenty
Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

pracovní list studenta

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

1.7. Mechanické kmitání

1.3 Druhy a metody měření

PŘEDPISY V SOCIÁLNÍ OBLASTI TÝKAJÍCÍ SE SILNIČNÍ DOPRAVY nařízení (ES) č. 561/2006, směrnice 2006/22/ES, nařízení (EU) č. 165/2014

Daniel Velek Optimalizace 2003/2004 IS1 KI/0033 LS PRAKTICKÝ PŘÍKLAD NA MINIMALIZACI NÁKLADŮ PŘI VÝROBĚ

Věc: Rozpočtové určení daní obcí od roku 2013

Lineární Regrese Hašovací Funkce

1.11 Vliv intenzity záření na výkon fotovoltaických článků

Spoje se styčníkovými deskami s prolisovanými trny

Elektrická měření 4: 4/ Osciloskop (blokové schéma, činnost bloků, zobrazení průběhu na stínítku )

Měření změny objemu vody při tuhnutí

FYZIKÁLNÍ PRAKTIKUM FJFI ČVUT V PRAZE. Mikrovlny

2013 ISBN$

Metody hodnocení rizik

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

4.5.1 Magnety, magnetické pole

I. Objemové tíhy, vlastní tíha a užitná zatížení pozemních staveb

Investice a akvizice

LABORATORNÍ ÚLOHA č.1

Exponenciála matice a její užití. fundamentálních matic. Užití mocninných řad pro rovnice druhého řádu

Návod k obsluze. s informacemi o údržbě. Fourth Edition Second Printing Part No CZ

Směrnice k Pravidlům hry ICCF Turnaje jednotlivců a družstev (platné od )

Osvětlovací modely v počítačové grafice

Conconiho Test elegantně s Polar RS400sd a RS800sd. PolarShop

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

ARCHIMEDES. Dopravní pr zkum na k ižovatce Masarykova x Pa ížská x Brn nská

Analýza oběžného kola

PŘESNÁ STŘELBA V ČASOVÉM LIMITU

UNIVERZITA PARDUBICE

Modul Řízení objednávek.

Ohmův zákon pro uzavřený obvod

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

5 ZKOUŠENÍ CIHLÁŘSKÝCH VÝROBKŮ

Příklad 1.3: Mocnina matice

Inovace bakalářského studijního oboru Aplikovaná chemie CZ.1.07/2.2.00/

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

ÚŘAD PRO OCHRANU HOSPODÁŘSKÉ SOUTĚŽE Brno, Joštova 8 ROZHODNUTÍ. Č. j.: S 064-R/00-353/140/Ná V Praze dne

3. Dynamika. Obecné odvození: a ~ F a ~ m. Zrychlení je přímo úměrné F a nepřímo úměrné m Výpočet síly a stanovení jednotky newton. F = m.

Tel/fax: IČO:

Měření hustoty kapaliny z periody kmitů zkumavky

A. PODÍL JEDNOTLIVÝCH DRUHŮ DOPRAVY NA DĚLBĚ PŘEPRAVNÍ PRÁCE A VLIV DÉLKY VYKONANÉ CESTY NA POUŽITÍ DOPRAVNÍHO PROSTŘEDKU

1 METODICKÉ POKYNY AD HOC MODUL 2007: Pracovní úrazy a zdravotní problémy související se zaměstnáním

FAKULTA INFORMATIKY A MANAGEMENTU UNIVERZITA HRADEC KRÁLOVÉ SEMESTRÁLNÍ PRÁCE. Modely operačního výzkumu 1. Studijní obor:

Návrh induktoru a vysokofrekven ního transformátoru

U S N E S E N Í. Č.j.: KSPH 70 INS 9082/2015-A-19

STUDIE. SEVERNÍHO OBCHVATU MĚSTA PŘELOUČ silnice č. I/2 PROJEKTANT VYPRACOVAL KRESLIL KONTROLOVAL DOC. DOLEŽEL ING.LOPOUR ING.LOPOUR DOC.

IFU _TEFAL_BODYPARTNER_Format 110x156 03/04/12 14:09 Page1.

Instrukce Měření umělého osvětlení

4 Vyhodnocení naměřených funkčních závislostí

NÁVOD K OBSLUZE. Rádiem řízený budík se slunečním modulem. Obj.č.:

Rozšířená nastavení. Kapitola 4

Spoření. Budoucí hodnota anuity. Rozdělení spoření. Základní vztah pro spoření JEDEN UNIVERZÁLNÍ VZOREC

(1) (3) Dále platí [1]:

MMEE cv Stanovení množství obchodovatelného zboží mezi zákazníkem a dodavatelem

Návod na elektronické podání

6. Matice. Algebraické vlastnosti

Preference v u ívání prost edk elektronické komunikace áky a studenty

Název: Robinson Jedlé a jedovaté

Zadání. Založení projektu

Algoritmizace a programování

Ovoce do škol Příručka pro žadatele

ODBORNÝ POSUDEK. č. 2381/21/14

TVORBA MULTIMEDIÁLNÍCH PREZENTACÍ. Mgr. Jan Straka

Podrobný postup pro vygenerování a zaslání Žádosti o podporu a příloh OPR přes Portál farmáře

Android Elizabeth. Verze: 1.3

DODATEČNÉ INFORMACE Č. 4

Kamenné bloky: Ptejme se nejdříve, kolik kamenných bloků bylo zabudováno do Cheopsovy pyramidy. S výškou 147 m a délkou hrany 233 m je její objem

Ėlektroakustika a televize. TV norma ... Petr Česák, studijní skupina 205

ZATÍŽENÍ SNĚHEM A VĚTREM

ODBORNÝ POSUDEK. č. 2661/108/15

1. POLOVODIČOVÁ DIODA 1N4148 JAKO USMĚRŇOVAČ

c sin Příklad 2 : v trojúhelníku ABC platí : a = 11,6 dm, c = 9 dm, α = Vypočtěte stranu b a zbývající úhly.

3.1.5 Energie II. Předpoklady: Pomůcky: mosazná kulička, pingpongový míček, krabička od sirek, pružina, kolej,

Česká zemědělská univerzita v Praze Fakulta provozně ekonomická. Obor veřejná správa a regionální rozvoj. Diplomová práce

R O Z S U D E K J M É N E M R E P U B L I K Y

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

Vrchem plněná pračka CTG 125. Návod na obsluhu

Slovní úlohy vedoucí na lineární rovnice I

ANALÝZA A EXPERIMENTÁLNÍ OVĚŘENÍ VELIČIN ŠROUBOVÉHO SPOJE KOLA AUTOMOBILU

(mimo pozůstalostní řízení a vypořádání SJM) ÚVOD POPIS ŘEŠENÍ Typ nemovitosti : Výše spoluvlastnického podílu : ZÁVĚR

doc. Ing. Martin Hynek, PhD. a kolektiv verze Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky

že spojení mezi ukazováčky zůstane viditelné i když budou od sebe vzdáleny i cm. Kdybyste měli s viděním

Pravidla o poskytování a rozúčtování plnění nezbytných při užívání bytových a nebytových jednotek v domech s byty.

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Fyzikální praktikum FJFI ČVUT v Praze

MECHANICKÁ PRÁCE A ENERGIE

Provozní deník jakosti vody

Výsledky zpracujte do tabulek a grafů; v pracovní oblasti si zvolte bod a v tomto bodě vypočítejte diferenciální odpor.

Operace nad celými tabulkami

KUFŘÍK MECHANIKA MA

ODBORNÝ POSUDEK. č. 2588/35/15

Ukázka knihy z internetového knihkupectví

FAKULTNÍ NEMOCNICE KRÁLOVSKÉ VINOHRADY. Šrobárova 1150/50, Praha 10, IČ:

Měření momentu setrvačnosti z doby kmitu

VÁŠ DOPIS ZN./ZE DNE Č. J., SPISOVÁ ZNAČKA VYŘIZUJE/LINKA ŽĎÁR NAD SÁZAVOU OD/633/15/LK Ing.Koubek / R O Z H O D N U T Í

UŽIVATELSKÝ NÁVOD. HYDRAULICKÝ POJÍZDNÝ ZVEDÁK 3T QuickLift (pedál) T83502 (26824) NOSNOST MAX.: kg MIN. VÝŠKA: 145 mm MAX.

Transkript:

STP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY Postupujte podle zadání. Vše potřebné k dnešnímu cvičení natáhnete z webu do R příkazy: adr="http://artax.karlin.mff.cuni.cz/~kraud8am/stp097/stp097_cvic_2007-12-12.rdata" load(url(adr)) Vyzkoušejte, že se vše povedlo: příkaz ls() musí mezi vypsanými objekty ukázat obrazek.edf (předdefinovaná funkce) a doly, rychlost (datové vektory). 1. Empirická distribuční funkce Empirickou distribuční funkci počítá funkce ecdf(x). Její argument x je vektor představující náhodný výběr. Jejím výsledkem je objekt, který můžeme pod nějakým jménem uschovat a dále zpracovávat. Spočtěte a nakreslete empirickou distribuční funkci náhodného výběru z normovaného normálního rozdělení o rozsahu 25 následujícím způsobem: (1) Vygenerujte a uschovejte náhodný výběr z normovaného normálního rozdělení (x = rnorm(25)). (2) Spočtěte empirickou distribuční funkci tohoto výběru (F = ecdf(x)). (3) Objekt F se chová jako funkce, tj. můžeme spočítat jeho hodnoty v libovolném bodě nebo bodech. Zkuste spočítat F(-0.5). (4) Udělejte obrázek: stačí napsat plot(f). Nyní zopakujte tento postup pro beta rozdělení s parametry α = β = 0.5 a rozsah výběru n = 35 [rbeta(n,alpha,beta)]. Podívejme se, jak se při vzrůstajícím počtu pozorování přibližuje empirická distribuční funkce skutečné distribuční funkci. Nakreslíme si empirickou distribuční funkci pro čtyři výběry z N(0, 1) o rozsahu 10, 50, 500, 2000. Každým obrázkem proložíme skutečnou distribuční funkci a dáme si je na jeden list. Taktéž spočítáme maximální absolutní rozdíl mezi skutečnou a empirickou distribuční funkcí. Jádrem výpočtu je připravená funkce obrazek.edf, kterou jste si natáhli z webové adresy. Vypište si, jak vypadá [print(obrazek.edf)]. Jejím jediným argumentem je rozsah výběru n. Funkce vygeneruje data z N(0, 1) a vyrobí obrázek empirické d.f a skutečné d.f., přitom vrací maximální rozdíl mezi empirickou a skutečnou distribuční funkcí. 1

Obrázky zakreslíme na jeden graf tak, že před voláním funkce obrazek.edf napíšeme příkaz par(mfrow=c(2,2)) (kreslící oblast se rozdělí na 2 2 obrázky). Pak čtyřikrát zavoláme obrazek.edf s argumentem 10, 50, 500 a 2000 a uvedeme grafiku do původního stavu [par(mfrow=c(1,1))]. 2. Jednovýběrové testy: hladina, síla, p-hodnota Uvažujme náhodný výběr X 1,..., X n z rozdělení N(0.5, 2) o rozsahu n = 60. Vygenerujte jeden takový výběr příkazy n = 60 x = rnorm(n,mean=0.5,sd=sqrt(2)) Nyní provedeme jednovýběrový Kolmogorovův-Smirnovův test hypotézy H 0 : X i N(0.5, 2) proti alternativě, že X i mají libovolné jiné rozdělení. V R se takový KS test na výběru x provede příkazem ks.test(x,y="pnorm",mean=0.5,sd=sqrt(2)) (pnorm znamená distribuční funkci normálního rozdělení). Prozkoumejte výstup z této funkce: kde je testová statistika, kde je p-hodnota? Rozhodněte, zdali došlo k zamítnutí nulové hypotézy. Nakreslíme si obrázek empirické distribuční funkce spolu s distribuční funkcí za hypotézy: od = min(x)*0.9 do = max(x)*1.1 plot(ecdf(x),xlim=c(od,do)) body = seq(od,do,length=500) lines(body,pnorm(body,mean=0.5,sd=sqrt(2)),col="blue") Dá se z obrázku okem odhadnout hodnota testové statistiky KS testu? Nyní na ten samý výběr x proveďte postupně test hypotézy H 0 : X i N(µ, 2) pro µ = 0.6, 0.65, 0.7, 0.75,.... Jak se mění výsledek testu? Pokračujte v oddalování střední hodnoty hypotetického rozdělení od střední hodnoty skutečného rozdělení dat po stejných krůčcích, dokud nedojde k zamítnutí hypotézy. Pak si nakreslete obrázek empirické distribuční funkce dat a distribuční funkce za platnosti hypotézy. Zopakujte to samé zadání s t-testem: nejdříve proveďte t-test hypotézy H 0 : E X i = 0.5 proti alternativě H 1 : E X i 0.5 na původním datovém souboru x příkazem t.test(x,mu=0.5) a prozkoumejte výstup z funkce t.test. Pak zkoumejte výsledky t-testu hypotéz H 0 : E X i = µ pro µ = 0.6, 0.65, 0.7, 0.75,..., dokud nedojde k zamítnutí H 0. Došlo k němu dříve nebo později než u KS testu? 2

3. Jednovýběrové testy simulace Nyní budeme simulovat hladinu a sílu jednovýběrových testů. Vyrobíme si jednoduchou funkci, která provede test na data x a vrátí pouze p-hodnotu. vem.ph = function(x,test,...) { test(x,...)$p.value } Vyzkoušejte si ji na původní data s KS testem a t-testem: vem.ph(x,ks.test,y="pnorm",mean=0.5,sd=sqrt(2)) vem.ph(x,t.test,mu=0.5) Teď vygenerujeme M = 1000 výběrů o rozsahu n = 60 z rozdělení N(0.5, 2) a uspořádáme do matice n M: n = 60 M = 1000 x.vyb = matrix(rnorm(n*m,0.5,sqrt(2)),nrow=n,ncol=m) Na každý výběr (každý sloupec) provedeme KS test hypotézy H 0 : X i N(0.5, 2) a získáme jeho p-hodnotu: ks.ph = apply(x.vyb,2,vem.ph,ks.test,y="pnorm",mean=0.5,sd=sqrt(2)) Aplikovali jsme funkci vem.ph s testem ks.test na sloupce matice x.vyb a získali vektor p-hodnot pro těchto 1000 výběrů. Nakreslete si jejich histogram. Výsledné p-hodnoty jsou náhodné veličiny, jaké je v tomto případě (tj. když platí hypotéza) jejich rozdělení? Váš úsudek si teoreticky zdůvodněte a ověřte provedením KS testu na výběr 1000 p-hodnot (tzn. na vektor ks.ph). Spočtěte, jaký podíl p-hodnot je menších než 0.05, tj. mean(ks.ph<0.05). Co odhaduje toto číslo? Zopakujte tuto úlohu za následujících podmínek: Generujte výběry z N(µ, 2) pro µ = 0.7 a µ = 0.9, testujte stále hypotézu H 0 : X i N(0.5, 2) KS testem. Jak se mění rozdělení p-hodnot? Jak se mění počet p-hodnot menších než 0.05 a co to znamená? Generujte výběry z N(0.5, 2) a provádějte t-test hypotézy H 0 : E X i = 0.5. Interpretujte výsledky. Generujte výběry z N(µ, 2) pro µ = 0.7 a µ = 0.9, testujte hypotézu H 0 : E X i = 0.5 t-testem. Interpretujte výsledky. 3

4. KS test: data o důlních nehodách Proměnná doly, kterou jste si na začátku načetli, obsahuje okamžiky významných důlních neštěstí ve Velké Británii mezi lety 1875 a 1951. Zajímá nás, zda během sledovaného období docházelo k důlním nehodám rovnoměrně v průběhu času. Proměnná obsahuje přepočítaná data. Původní data 1 udávala intervaly (ve dnech) mezi jednotlivými nehodami. V proměnné doly jsou skutečné okamžiky událostí (tj. kumulativní součty intervalů mezi událostmi) vydělené celkovou dobou pozorování, která byla 26263 dní. Pro představu si data vypište. Jsou-li události náhodně rozloženy v čase, měla by tato data představovat (uspořádaný) náhodný výběr z rovnoměrného rozdělení. Vykreslete si histogram a empirickou distribuční funkci. Z histogramu se zdá, že události jsou rozloženy nerovnoměrně, že dříve byly nehody častější. Je to jen optický dojem, nebo je to opravdu významné? Otestujte rovnoměrnost použitím testu Kolmogorov Smirnov [ks.test(doly,"punif")] a rozmyslete si význam výsledků. 5. Jednovýběrový t-test, znaménkový test: měření rychlosti světla Kolem roku 1880 provedl A. A. Michelson pokusy za účelem stanovení rychlosti světla. Dnes známe skutečnou hodnotu rychlosti světla, takže můžeme posoudit úspěšnost tehdejších měření. Skutečná rychlost světla ve vakuu je 299 792.5 km/s. V prostředí, kde Michelson měřil, je správná rychlost 299 710.5 km/s. K disposici máme výsledky 23 pokusů v proměnné rychlost. Od všech hodnot je odečteno 299 000 km/s. Popisné statistiky a grafy. Pomocí příkazu summary(rychlost) získáme základní informace o datech. (Další popisné statistiky lze získat pomocí funkcí quantile, median, mean, var, sd a podobně.) Nakreslete si histogram a empirickou distribuční funkci. Představu o rozdělení dat dává rovněž krabicový diagram (boxplot), který získáme příkazem boxplot(rychlost). Prostřední vodorovná čára je ve výši mediánu, horní a dolní hranice prostřední krabice ve výši kvartilů (přibližně). Krajní vodorovné čáry ukazují největší/nejmenší pozorování ležící do vzdálenosti 1.5 krát výška krabice od nejbližší hranice krabice (tzn. od nejbližšího kvartilu, přibližně). Odlehlá pozorování jsou znázorněna samostatnými body. t-test. Testujme hypotézu, že Michelson měřil správně, proti alternativě, že měřil špatně. Jinými slovy, nulová hypotéza je, že naměřená data odpovídají skutečné střední hodnotě 710.5 km/s, alternativa je, že nikoli. Použijeme tedy jednovýběrový t-test, který porovnává průměr pozorování s hypotetickou střední hodnotou: t.test(rychlost,mu=710.5) 1 Tabulka 1 v článku Maguire, Pearson & Wynn (1952). 4

Rozmyslete si, co znamenají jednotlivé vypsané údaje. Jak souvisí testování hypotézy s intervalovým odhadem, který je ve výpisu rovněž uveden? Znaménkový test. Připomeňme si, o co jde. Testujme hypotézu, že medián rozdělení, z něhož pocházejí data, je roven 710.5, proti alternativě, že tomu tak není. Pokud je 710.5 skutečně medianem, měl by počet hodnot nad 710.5 být blízký 23/2 (23 je počet pozorování length(rychlost)). Neobvykle mnoho (blízko 23) nebo neobvykle málo (blízko 0) hodnot nad 710.5 bude svědčit proti tomu, že median je 710.5. V našem případě je počet hodnot nad 710.5 (tedy testová statistika) roven 17: stat = sum(rychlost>710.5) stat Testová statistika má za platnosti hypotézy binomické rozdělení s parametry 23 a 0.5. Znaménkový test provedeme pomocí funkce binom.test: binom.test(stat,23,.5) Prostudujte si výpis a rozmyslete si závěr. 5