Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Podobné dokumenty
Testy nezávislosti kardinálních veličin

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování uživatelského rozhraní

Design Experimentu a Statistika - AGA46E

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

KORELACE. Komentované řešení pomocí programu Statistica

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

A7B39TUR Úloha B Kvantitativní testování ZS 2013/2014 Software MS Office Word a Open Office Writer

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Plánovací diář a Google Calendar

Lineární regrese. Komentované řešení pomocí MS Excel

Jednostranné intervaly spolehlivosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Uloha B - Kvantitativní test. Radek Kubica A7B39TUR. B1 Radek Kubica Kvantitativní testování Stránka 1

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Uni- and multi-dimensional parametric tests for comparison of sample results

Vybrané partie z biostatistiky

Zápočtová práce STATISTIKA I

Kvantitativní testování porovnání Alza.cz a Mall.cz

Korelace. Komentované řešení pomocí MS Excel

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Národníinformačnístředisko pro podporu jakosti

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Návrhy dalších možností statistického zpracování aktualizovaných dat

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

= = 2368

ADDS cviceni. Pavlina Kuranova

Jednofaktorová analýza rozptylu

Způsoby chození do schodů

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Seminář 6 statistické testy

Porovnání dvou výběrů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Fisherův exaktní test

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

Seminář 6 statistické testy

Karta předmětu prezenční studium

Matematická statistika Zimní semestr

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Kvantitativní testování virtuálních klávesnic na desktopu

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Opakování: Nominální proměnná více hodnotová odpověď.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Interaktivní analýza dat. Galileo

Vzorová prezentace do předmětu Statistika

P-value. Alžběta Gardlo, Karel Hron Laboratoř metabolomiky Ústav molekulární a translační medicíny, UPOL a FNOL

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Pracovní text a úkoly ke cvičením MF002

TECHNICKÁ UNIVERZITA V LIBERCI

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Popisná statistika. Komentované řešení pomocí MS Excel

Vysoká škola ekonomická v Praze

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Matematická statistika Zimní semestr

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Poznámky k předmětu Aplikovaná statistika, 9.téma

Metodologie pro Informační studia a knihovnictví 2

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Příklady na testy hypotéz o parametrech normálního rozdělení

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Tabulka 1. Výběr z datové tabulky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

4ST201 STATISTIKA CVIČENÍ Č. 7

Charakteristika datového souboru

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Analýza dat na PC I.

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

VŠB Technická univerzita Ostrava

A7B39TUR - Semestrální práce

Transkript:

Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Popis vstupních dat Vstupní data pro úlohu (A) se nacházejí v souboru "glukoza.csv". V prvním sloupci "pred" je hladina glukózy v krvi (v mmol/l) před užíváním léku a v druhém sloupci "po" hodnoty hladiny glukózy po dvou týdnech užívání testovaného léku. Vstupní data pro úlohu (B) se nacházejí v souborech "skupinai.csv", "skupinaii.csv". SkupinaI.csv obsahuje údaje o první, 46 členné skupině, jíž byl v první fázi dvojitého slepého pokusu podáván nově testovaný lék (první sloupec) a ve fázi druhé lék tradiční (druhý sloupec). Pro 49 člennou 2. skupinu je tomu přesně naopak.

Načtení dat Souhrnné statistiky Načtení vstupních dat Předpokládejme, že data jsou uložena na disku F ve složce Aplikovana_statistika. Načtení vstupních dat do pracovního objektu glukoza a vypsání na obrazovku provedeme příkazem glukoza<-read.table("f:\\aplikovana_statistika\\glukoza.txt", header=true) glukoza pred po 1 6.7 5.6 2 5.7 6.1 3 6.5 5.5 4 6.3 5.5 5 6.6 5.4 6 6.3 5.5 7 5.9 5.7 8 6.2 5.8 9 6.4 5.2...

Načtení dat Souhrnné statistiky Souhrnné charakteristiky souboru Podívejme se nejprve na některé souhrnné charakteristiky našich dat pomocí příkazu summary. Ten nám vypíše minimum, maximum, všechny kvartily a medián summary(glukoza) pred po Min. :5.10 Min. :4.900 1st Qu.:5.90 1st Qu.:5.500 Median :6.10 Median :5.650 Mean :6.15 Mean :5.673 3rd Qu.:6.50 3rd Qu.:5.900 Max. :6.90 Max. :6.500 Součástí příkazu summary nejsou výběrové rozptyly, takže si necháme vypsat zvlášt kovarianční matici příkazem var var(glukoza) pred po pred 0.13745763-0.01745763 po -0.01745763 0.12436158

Grafické výstupy Test normality Předpokladem pro párový test je, že výběr pochází z dvourozměrného normálního rozdělení. Práci s tímto typem rozdělení jsme se na přednáškách nevěnovali. Tento předpoklad může být nahrazen předpokladem, že rozdíly mezi měřeními před a po aplikaci léků u jendotlivých pacientů má normální rozdělení. Definujme si tedy rozdíl mezi daty před a po a pro tento rozdíl budeme zkoumat normalitu. glukoza_rozdil<-glukoza$pred-glukoza$po) glukoza_rozdil [1] 1.1-0.4 1.0 0.8 1.2 0.8 0.2 0.4 1.2 0.8 0.6-0.5 0.2 0.1 0.3 [16] 0.7 1.2-0.1 0.5 0.6-0.2 0.4 0.4-0.1 1.1 1.0 0.5 1.2 0.2 0.1 [31] 0.2 0.8 0.3 0.0 0.0 0.0 0.2 0.7 0.4 1.5 0.3 0.2 1.1-0.5 0.4 [46] -0.2-0.6 1.3 0.3 1.0 0.7 0.9 0.9-0.9 0.4 0.5 1.6 0.3 1.2 0.3

Grafické výstupy Test normality Grafické výstupy - Boxplot Boxplot si můžeme vykreslit pro data před i po zvlášt, nebot nám slouží k sumárním statistikám nikoliv testovánńormality. boxplot(glukoza) 5.0 5.5 6.0 6.5 pred po

Grafické výstupy Test normality Grafické výstupy - Histogramy hist(glukoza_rozdil) Histogram of glukoza_rozdil Frequency 0 5 10 15 20 1.0 0.5 0.0 0.5 1.0 1.5 2.0 glukoza_rozdil Jsou-li data normální, kopírují vrcholky sloupců přibližne Gaussovu křivku.

Grafické výstupy Test normality Grafické výstupy - Q-Q plot qqnorm(glukoza_rozdil) Normal Q Q Plot Sample Quantiles 1.0 0.5 0.0 0.5 1.0 1.5 2 1 0 1 2 Theoretical Quantiles Normalita dat by znamenala, že body grafu by se měly ležet v přímce, což se zdá být přibližně splněno.

Grafické výstupy Test normality Test normality dat shapiro.test(glukoza_rozdil) Shapiro-Wilk normality test data: glukoza_rozdil W = 0.98372, p-value = 0.6039 P-hodnota testu je, jak vidíme poměrně vysoká. Hypotézu o "nenormalitě" dat bychom zamítli až na hladině přes 60 %. To svědčí ve prospěch normality rozdílu, což ovšem podporuje i vzhled Q-Q grafu.

Protože bychom rádi prokázali, že lék má průkazné pozitivní vliv na hladinu glukózy v krvi, budeme testovat oproti jednostranné alternativě, že střední hodnota rozdílu "pred-po" je vetší než nula. To můžeme udělat příkazem t.test(glukoza$pred,glukoza$po,alternative = "greater",paired = TRUE, var.equal = FALSE,conf.level = 0.95) data: glukoza$pred and glukoza$po t = 6.7781, df = 59, p-value = 3.209e-09 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 0.3591474 Inf sample estimates: mean of the differences 0.4766667

Interpretace výsledku testu Ve výpisu vidíme, že testová statistika má hodnotu t = 6, 7781, rozdíl výběrových průměrů je 0, 4766667 a jednostranný 95 % interval spolehlivosti je [ 0, 3591474; ). Protože interval spolehlivosti neobsahuje nulu, můžeme na hladině 5 % zamítnout hypotézu o shodě středních hodnot. Na hladině 5 % jsme tedy statisticky význmně prokázali účinost léku na snížení hladiny glukózy. Podstatné pro nás je, že p-hodnota testu je na úrovni miliardtin, tedy velmi blízká nule, takže bychom zamítali i na velmi velmi nízkých hladinách.

Pro úlohu (B) budeme muset nejprve načíst nová data. Předtím (pokud pokračujeme ve stejné konzoli) si pro jistotu vymažeme všechny stávající objekty. rm(list=ls(all=true)) Ted si můžeme načíst nová data: skupinai<-read.table("f:\\aplikovana_statistika\\dvouvyberove_testy\\ skupinai.txt", header=true) skupinaii<-read.table("f:\\aplikovana_statistika\\dvouvyberove_testy\\ skupinaii.txt", header=true) Pro přehlednost si pojmenujeme jednotlivé sloupce: names(skupinai)=c("pokus1novy","pokus2bezny") names(skupinaii)=c("pokus1bezny","pokus2novy") Sloupec "novy" odpovídá novému léku, sloupec "bezny", běžně používanému.

Grafické výstupy Test normality Základním předpokladem pro použítí dvouvýběrového testu je opět normalita dat. Provedeme proto obdobné grafické výstupy jako v předchozím párovém testu, tj. boxplot(skupinai) boxplot(skupinaii) hist(skupinai$pokus1novy) hist(skupinai$pokus2bezny) hist(skupinaii$pokus1bezny) hist(skupinaii$pokus2novy) qqnorm(skupinai$pokus1novy) qqnorm(skupinai$pokus2bezny) qqnorm(skupinaii$pokus1bezny) qqnorm(skupinaii$pokus2novy)

Grafické výstupy Test normality Boxploty 4 5 6 7 8 9 10 4 5 6 7 8 pokus1(novy) pokus2(bezny) pokus1(bezny) pokus2(novy)

Grafické výstupy Test normality Histogramy Histogram of skupinai$pokus1novy Histogram of skupinai$pokus2bezny Frequency 0 2 4 6 8 Frequency 0 5 10 15 4.0 4.5 5.0 5.5 skupinai$pokus1novy 4 5 6 7 8 9 10 skupinai$pokus2bezny Histogram of skupinaii$pokus1bezny Histogram of skupinaii$pokus2novy Frequency 0 5 10 15 Frequency 0 2 4 6 8 4 5 6 7 8 9 skupinaii$pokus1bezny 4.0 4.5 5.0 5.5 skupinaii$pokus2novy

Grafické výstupy Test normality Q-Q grafy Normal Q Q Plot Normal Q Q Plot Sample Quantiles 4.0 4.5 5.0 5.5 Sample Quantiles 4 5 6 7 8 9 10 2 1 0 1 2 Theoretical Quantiles 2 1 0 1 2 Theoretical Quantiles Normal Q Q Plot Normal Q Q Plot Sample Quantiles 5 6 7 8 Sample Quantiles 4.5 5.0 5.5 2 1 0 1 2 Theoretical Quantiles 2 1 0 1 2 Theoretical Quantiles

Grafické výstupy Test normality Test normality-skupina I shapiro.test(skupinai$pokus1novy) Shapiro-Wilk normality test data: skupinai$pokus1novy W = 0.95921, p-value = 0.114 shapiro.test(skupinai$pokus2bezny) Shapiro-Wilk normality test data: skupinai$pokus2bezny W = 0.98431, p-value = 0.7935 U obou pokusů je p-hodnota vyšší než všechny standardně používané hladiny testu, u druhého pokusu je dokonce výrazně vysoká. Normalitu dat tedy nemůžeme zamítnout. Přesto test o shodě středních hodnot budeme považovat za asymptotický.

Grafické výstupy Test normality Test normality-skupina II shapiro.test(skupinaii$pokus1bezny) Shapiro-Wilk normality test data: skupinaii$pokus1bezny W = 0.97705, p-value = 0.4627 shapiro.test(skupinaii$pokus2novy) Shapiro-Wilk normality test data: skupinaii$pokus2novy W = 0.94871, p-value = 0.03552 U prvního pokusu je p-hodnota vyšší než všechny standardně používané hladiny testu, u druhého pokusu je bohužel pouze lehce vyšší než 3 %, tedy na hladině 5 % bychom už hypotézu o normalitě dat zamítli. Test o shodě středních hodnot budeme budeme tedy opět považovat za asymptotický.

Chceme-li u prvního pokusu prokázat lepší působení nového léku, budeme testovat oproti jednostranné alternativě, že očekávaná hladina je při užívání nového léku nižší, v tomto případě to znamená "menší než": t.test(skupinai$pokus1novy, skupinaii$pokus1bezny,alternative = "less", paired = FALSE, var.equal = FALSE,conf.level = 0.95) Welch Two Sample t-test data: skupinai$pokus1novy and skupinaii$pokus1bezny t = -9.8607, df = 70.129, p-value = 3.501e-15 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -1.1518 sample estimates: mean of x mean of y 4.755556 6.141667 Jak vidíme, p-hodnota je velmi nízká, protomúžeme na všech myslitelných hadinách zamítnout shodu středních hodnot. Lze tedy spolehlivě tvrdit (na základě Pokusu 1), že nový lék je prokazatelně účinnější.

Analogicky u druhého pokusu prokázat lepší působení nového léku, budeme testovat oproti jednostranné alternativě "větší než": t.test(skupinai$pokus2bezny, skupinaii$pokus2novy,alternative = "greater", paired = FALSE, var.equal = FALSE,conf.level = 0.95) Welch Two Sample t-test data: skupinai$pokus2bezny and skupinaii$pokus2novy t = 10.518, df = 54.115, p-value = 5.403e-15 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 1.707484 Inf sample estimates: mean of x mean of y 6.788889 4.758333 Jak vidíme, p-hodnota je velmi nízká, protomúžeme na všech myslitelných hadinách zamítnout shodu středních hodnot. Lze tedy spolehlivě tvrdit (na základě Pokusu 2), že nový lék je prokazatelně účinnější. Tedy celý slepý dvojitý pokus proběhl úspěšně a zavedení novéo léku můžeme spolehlivě doporučit.

Jako dodatek k dvouvýběrovým testům jenom dodáváme návod, jak provést test shody rozptylů. Jak již bylo řečeno v teoretické části, pokud z principu nevíme, že výběry pochází z rozdělení se shodnými rozptyly, nebudeme užívat test shody středních hodnot při shodných rozptylech. Tato kapitola je tedy pouze dodatková, abychom věděli, jak v případě potřeby testovat v R shodu rozptylů. Test si procvičíme například na datech pro nový lék získaných v obou skupinách. var.test(skupinai$pokus1novy, skupinaii$pokus2novy, ratio=1, alternative = "two.sided",conf.level = 0.95) F test to compare two variances data: skupinai$pokus1novy and skupinaii$pokus2novy F = 1.0088, num df = 44, denom df = 47, p-value = 0.9739 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.5615002 1.8229735 sample estimates: ratio of variances 1.008816

Jak vidíme, 95 % interval spolehlivosti obsahuje jedničku, proto nemůžeme hypotézu o shodě rozptylu nemůžeme zamítnout. Navíc p-hodnota je velmi blízká jedné, z čehož lze na shodu usuzovat. Poznámka: Argumentem ratio můžeme změnit typ testovaného podílu (vztahu) mezi rozptyly.