Semestrální práce z předmětu m6f. 2 test dobré shody



Podobné dokumenty
Semestrální práce z předmětu Matematika 6F

6. T e s t o v á n í h y p o t é z

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Příloha č. 3. Kombinační třídění

awk programovatelný filtr

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

NEPARAMETRICKÉ TESTY

12. cvičení z PST. 20. prosince 2017

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

Teoretická rozdělení

2 ) 4, Φ 1 (1 0,005)

15. T e s t o v á n í h y p o t é z

Poznámky k předmětu Aplikovaná statistika, 9.téma

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

= = 2368

Rozdělení přenosové rychlosti disku

Robust ledna 5. února 2010, Králíky

StatSoft Odkud tak asi je?

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.


4ST201 STATISTIKA CVIČENÍ Č. 8

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

You created this PDF from an application that is not licensed to print to novapdf printer (

ODBĚR, PŘÍPRAVA, PŘEPRAVA A UCHOVÁVÁNÍ VZORKŮ

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

STATISTICKÉ ZJIŠŤOVÁNÍ

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Klíčové pojmy: Cyklus, řídící proměnná, inicializace, test podmínky, přerušení cyklu, vnořování cyklů.

FAKULTA STAVEBNÍ VUT V BRNĚ PŘIJÍMACÍ ŘÍZENÍ DO MNSP STAVEBNÍ INŽENÝRSTVÍ PRO AKADEMICKÝ ROK

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Tomáš Karel LS 2012/2013

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Testy. Pavel Provinský. 19. listopadu 2013

BASH. Kouzla s příkazovou řádkou. Petr Koloros

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

Informatika pro moderní fyziky (2) základy Ruby, zpracování textu

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

Vybraná rozdělení náhodné veličiny

Výtok kapaliny otvorem ve dně nádrže (výtok kapaliny z danaidy)

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

KGG/STG Statistika pro geografy

A7B38UOS Úvod do operačních systémů. 6. Cvičení. Příkazy sed a awk

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Protokol č. 1. Tloušťková struktura. Zadání:

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Lenka Zalabová. Ústav matematiky a biomatematiky, Přírodovědecká fakulta, Jihočeská univerzita. zima 2012

5 Parametrické testy hypotéz

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

Normální (Gaussovo) rozdělení


Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Pravděpodobnost a matematická statistika

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Tomáš Karel LS 2012/2013

Odhad parametrů N(µ, σ 2 )

IDENTIFIKACE BIMODALITY V DATECH

Přednáška 5. Výběrová šetření, Exploratorní analýza

Matematická statistika Zimní semestr

1. Pravděpodobnost a statistika (MP leden 2010)

4ST201 STATISTIKA CVIČENÍ Č. 7

Analýza přežití čertic a čertů


15. T e s t o v á n í h y p o t é z

Domácí příprava k předmětu YD38UOS Úloha 10 práce s lokálními soubory pokračování

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

Regresní a korelační analýza

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

DPH v Exact Globe Next 2013

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

PRAVDĚPODOBNOST A STATISTIKA

1. jarní série. Barevné úlohy

Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Úvod do Operačních Systémů

SRG Přírodní škola, o.p.s. Orientace v Přírodě. Bez kompasu

I. D i s k r é t n í r o z d ě l e n í

cv3.tex. Vzorec pro úplnou pravděpodobnost

Kontingenční tabulky, korelační koeficienty

ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD KATEDRA MATEMATIKY. Bakalářská práce. Modelování a odhadování výsledků sportovních utkání

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

p(x) = P (X = x), x R,

Tomáš Karel LS 2012/2013

Břetislav Fajmon, UMAT FEKT, VUT Brno. Poznámka 1.1. A) první část hodiny (cca 50 minut): představení všech tří metod při řešení jednoho příkladu.

Regresní a korelační analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Simulace. Simulace dat. Parametry

Transkript:

Semestrální práce z předmětu m6f test dobré shody Ikar Pohorský 1. 5. 006

Zadání Ověřte, nebo zamítněte hypotézu, že četnost souborů v jednotlivých třídách velikostí odpovídá exponenciálnímu rozložení. Získání dat Pro získání dat z libovolného adresáře postačí následující příkaz: ls -lr jmeno_adresare gawk '/^-/{print $5' > file_size_list Ten uloží do souboru file_size_list velikosti souborů, které najde po cestě adresářem, který dostane jako parametr. Zpracování dat Pro rozdělení dat do jednotlivých tříd a výpočet testové statistiky jsem napsal skript v jazyce awk (viz příloha). Spuštění provedeme příkazem: gawk -f compute.awk file_size_list Popis práce skriptu Ve skriptu jmplicitně definován počet tříd na deset tříd a horní mez poslední třídy na 10000, čili 10kB. Tyto parametry mohou dosti ovlivnit výsledek výpočtu, proto je potřeba si s nimi pohrát. Program si navíc přidá jednu třídu (tedy jedenáctou) s rozsahem od horní meze poslední třídy do nekonečna. Výkonná část skriptu čte vstupní soubor a ukládá do pole počet souborů, jejichž velikost vyhovuje dané třídě. Každá položka v poli reprezentuje jendu třídu. Na závěr skript provede výpočet statistiky a na standatrní výstup vypíše tabulku. Ukázkový výstup: $ ls -lr /etc gawk '/^-/{print $5' gawk -f compute.awk < od ; do ) o_i p_i e_i (o_i-e_i)^ / e_i < 0 ; 1100 ) 350 0,516 160,50 3,733 < 1100 ; 00 ) 119 0,1883 10,14 0,011 < 00 ; 3300 ) 56 0,1409 89,905 1,786 < 3300 ; 4400 ) 6 0,1055 67,87 5,334 < 4400 ; 5500 ) 1 0,0789 50,360 9,19 < 5500 ; 6600 ) 18 0,0591 37,691 10,87 < 6600 ; 7700 ) 6 0,044 8,09 17,485 < 7700 ; 8800 ) 3 0,0331 1,11 15,539 < 8800 ; 9900 ) 5 0,048 15,801 7,383 < 9900 ; 11000 ) 4 0,0185 11,86 5,179 < 11000 ; oo ) 39 0,0551 35,183 0,414 sum {(o_i - e_i)^ / e_i = 347,37

Popis sloupců a postup výpočtu Výstup programu má nezasvěceným nic neříkající záhlaví tabulky o pěti sloupcích a výsledek statistiky. První sloupec ukazuje meze třídy. Zvláštností je snad pouze poslední třída, která zahrnuje nekonečno. Toto nekonečno je ve výpočtech reprezentováno velkým číslem. Takovým velkým číslem rozumějme číslo, které když bude zvětšeno (např. o řád) již nezmění hodnoty ostatních sloupců. Druhý sloupec říká, kolik souborů se v dané třídě pro konkrétní adresář vyskytuje. Označme toto číslo jako o i. Třetí sloupec je již zajímavější. Pro každou třídu je zde vypočítána teoretická pravděpodobnost výskytu jednoho souboru. Tato hodnota se pro exponenciální rozdělení vypočítá následujícím vzorcem: p i = a b e x dx =[ e x ] a b =e a e b, kde a je dolní mez třídy, b je horní mez třídy a parametr je neznámý. Odhad tohoto parametru provedeme například metodou maximální věrohodnosti a dojdeme ke vztahu: = 1 x = n m, kde n je počet všech souborů a m je celková velikost všech souborů. Ve čtvrtém sloupci vidíme, kolik by třída v případě exponenciálního rozdělení teoreticky obsahovala souborů, což vypočítáme vynásobením pravděpodobnosti výskytu jednoho souboru celkovým počtem souborů: =n p i. V posledním sloupci je uvedena odchylka vypočítané a naměřené hodnoty vypočítaná z následujícího vztahu: o i. Hodnota testové statistiky je uvedena pod tabulkou. Pro úplnost uveďme vzorec: o i.

test dobré shody Abychom mohli zamítnout hypotézu, že četnost souborů v jednotlivých třídách podléhá exponenciálnímu rozdělení, musí platit k o i 1 k 1 q, i =i kde je hladina výzamnosti, na které zamítneme hypotézu a je -kvantil rozdělení o k 1 q stupních volnosti, kde k je počet tříd a q je počet odhadovaných parametrů. V našem případě je q=1 a na hladině významnosti 5% z tabulek vyhledáme, že 0,95 k 1 q = 0,95 11 1 1 = 0,95 9 =16,919. Pokud je hodnota testové statistiky, než 1 -kvantil rozdělení, zamítneme hypotézu, že se data řídí exponenciálním rozdělením. Závěr Nepodařlo se mi v systému najít adresář, který by testem prošel bez zamítnutí hypotézy o exponenciálním rozložení dat. Testovány byly adresáře /etc; /usr; /var. I když na první pohled data vypadají, že by exponenciálnímu rozložení mohla odpovídat, test je dokonc na hladině významnosti 0,5% stále nekompromisní.

Příloha zdojový kód awk skriptu: BEGIN { # kolik chceme mit trid resolution=10; # horni mez posledni tridy last_class_top=6000; { new_array[resolution + 1]=0; files_count=0; total_file_size=0; files_count++; total_file_size += $1; # hledame, do ktere tridy pasuje velikost souboru for (i=0; i<resolution; i++) { if ($1 >= last_class_top*i/resolution && $1 < last_class_top*(i+1)/resolution) { new_array[i]++; next; END { # pokud nikam nepasuje, je za nejvyssim odhadem -> posledni trida new_array[i]++; lambda = files_count / total_file_size; printf " < od ; do ) o_i p_i "; printf " e_i (o_i-e_i)^ / e_i \n"; for (i = 0; i <= resolution; i++) { # leva mez tridy from = last_class_top*i/resolution; # prava mez tridy; pokud je posledni, dosazujeme "nekonecno" to = (i==resolution)? 100000 : last_class_top*(i+1)/resolution; printf " <%8s ; %-8s)", from, (i == resolution)? "oo" : to; # pocet souboru v dane tride files = new_array[i]? new_array[i] : 0; printf " %6s", files; # teoreticka pravdepodobnost vyskytu jednoho souboru ve tride p_i = exp(-lambda*from) - exp(-lambda*to); printf " %1.4f", p_i; # teoreticky pocet souboru v dane tride e_i = p_i * files_count; printf " %10.3f", e_i; # odchylka namerene vs. vypocitane (o_i - e_i)^ / (e_i) test_stat = (files - e_i)*(files - e_i)/e_i; printf " %17.3f \n", test_stat; # soucet odchylek sum += test_stat; # soucet odchylek print "sum {(o_i - e_i)^ / e_i = ", sum;