Testy nezávislosti kardinálních veličin

Podobné dokumenty
Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

KORELACE. Komentované řešení pomocí programu Statistica

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Korelace. Komentované řešení pomocí MS Excel

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lineární regrese. Komentované řešení pomocí MS Excel

Zápočtová práce STATISTIKA I

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Vybrané partie z biostatistiky

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Fisherův exaktní test

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pearsonův korelační koeficient

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

= = 2368

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Aplikovaná statistika v R - cvičení 2

Testování uživatelského rozhraní

Návrhy dalších možností statistického zpracování aktualizovaných dat

Charakteristika datového souboru

12. cvičení z PST. 20. prosince 2017

Plánovací diář a Google Calendar

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Uloha B - Kvantitativní test. Radek Kubica A7B39TUR. B1 Radek Kubica Kvantitativní testování Stránka 1

Jednofaktorová analýza rozptylu

Národníinformačnístředisko pro podporu jakosti

Analýza dat z dotazníkových šetření

A7B39TUR Úloha B Kvantitativní testování ZS 2013/2014 Software MS Office Word a Open Office Writer

Popisná statistika. Komentované řešení pomocí MS Excel

Testy. Pavel Provinský. 19. listopadu 2013

Opakování: Nominální proměnná více hodnotová odpověď.

Vzorová prezentace do předmětu Statistika

ADDS cviceni. Pavlina Kuranova

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Neparametrické metody

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Seminář 6 statistické testy

Jednostranné intervaly spolehlivosti

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

KGG/STG Statistika pro geografy

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Uni- and multi-dimensional parametric tests for comparison of sample results

4EK211 Základy ekonometrie

TECHNICKÁ UNIVERZITA V LIBERCI

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Příklady na testy hypotéz o parametrech normálního rozdělení

Regresní a korelační analýza

Karta předmětu prezenční studium

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Průzkumová analýza dat

Ilustrační příklad odhadu LRM v SW Gretl

Testování hypotéz a měření asociace mezi proměnnými

Korelační a regresní analýza

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Seminář 6 statistické testy

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

SPC v případě autokorelovaných dat. Jiří Michálek, Jan Král OSSM,

Obsah. 3 Testy z test z test t test t test 2s... 35

5 Parametrické testy hypotéz

12. prosince n pro n = n = 30 = S X

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Kvantitativní testování porovnání Alza.cz a Mall.cz

Neparametrické testy

Transkript:

Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Načtení vstupních dat Vstupní data se nacházejí v souboru "data-nezavislost_korelace.csv". Předpokládejme, že data jsou uložena na disku F ve složce Aplikovana_statistika. Načtení vstupních dat do pracovního objektu DATA a vypsání na obrazovku provedeme příkazem DATA<-read.csv("f:\\Aplikovana_statistika\\data-nezavislost_korelace.csv", header=false) DATA V1 V2 1 33 70.4 2 135 100.0 3 79 92.6 4 42 85.2 5 27 100.0 6 14 88.9...

Povšimněme si názvu jednotlivých datových sloupců. Pro přehlednost je můžeme přejmenovat names(data)=c("body","dochazka") DATA body dochazka 1 33 70.4 2 135 100.0 3 79 92.6 4 42 85.2 5 27 100.0 6 14 88.9...

Souhrnné charakteristiky souboru Podívejme se nejprve na některé souhrnné charakteristiky našich dat pomocí příkazu summary. Ten nám vypíše minimum, maximum, všechny kvartily a medián summary(data) body dochazka Min. : 0.00 Min. : 0.00 1st Qu.: 22.00 1st Qu.: 67.30 Median : 46.00 Median : 82.10 Mean : 54.65 Mean : 71.46 3rd Qu.: 81.00 3rd Qu.: 92.30 Max. :183.00 Max. :100.00 Součástí příkazu summary nejsou výběrové rozptyly, takže si necháme vypsat zvlášt výběrovou varianční matici příkazem var: var(data) 41.40621 29.95059

- Boxplot boxplot(data) 0 50 100 150 body dochazka

- Histogramy hist(data$body) hist(data$dochazka) Histogram of DATA$body Histogram of DATA$dochazka Frequency 0 5 10 15 Frequency 0 5 10 15 20 25 0 50 100 150 200 DATA$body 0 20 40 60 80 100 DATA$dochazka

- Q-Q plot Z histogramů je poměrně očividné, že ani počty bodů ani docházka v procentech nevypadají jako normálně rozdělené veličiny. To nám ostatně potvrzuje i normální Q-Q plot. Normální Q-Q plot je graf porovnávající kvantily výběru s teoretickými kvantily normalního rozdělení. Pokud by veličiny pocházely z normálního rozdělení, pak by grafem byla při bližně přímka y = x qqnorm(data$body) qqnorm(data$dochazka) Normal Q Q Plot Normal Q Q Plot Sample Quantiles 0 50 100 150 Sample Quantiles 0 20 40 60 80 100 2 1 0 1 2 Theoretical Quantiles 2 1 0 1 2 Theoretical Quantiles

Test normality dat ovšem nejsou exaktním důkazem, proto si ještě provedeme test normality dat. K tomuto účelu použijeme Shapiro-Wilkův test normality shapiro.test(data$body) Shapiro-Wilk normality test data: DATA$body W = 0.9353, p-value = 0.0004168 shapiro.test(data$dochazka) Shapiro-Wilk normality test data: DATA$dochazka W = 0.7771, p-value = 7.008e-10 Jak je vidět, p-hodnota je velmi nízká, takže normalitu dat zamítáme i na velmi nízkých hladinách testu (hodnota W je hodnota použité testové statistiky). Námi použité testy budou tedy pouze asymptotické.

Výběrový korelční koeficient Pearsonův výběrový korelační koeficient (respektive korelační matici) spočteme příkazem cor cor(data, method="pearson") body dochazka body 1.0000000 0.2621148 dochazka 0.2621148 1.0000000 Poznámka: Argument method značí typ korelačního koeficientu, který počítáme. V R jsou ve standardní nabídce ješte koeficienty "spearman"a "kendall".

Test nulovosti korelačního koeficientu Test nulovosti korelačního koeficientu oproti oboustranné alternativě - úloha (A) Příkaz cor.test má čtyři různé argumenty - první dva jsou výběry u nichž provádíme test, třetí je typ alternativy. Zde může být oboustranná ("two.sided") nebo jednostranné ("greater", "less") a konečně poslední argument je typ metody (zde "pearson"). cor.test(data$body,data$dochazka,alternative="two.sided", method="pearson") Pearson s product-moment correlation data: DATA$body and DATA$dochazka t = 2.4445, df = 81, p-value = 0.01668 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.04920743 0.45223670 sample estimates: cor 0.2621148

Pojd me si podrobně probrat jednotlivé výstupy testu. t = 2.4445... hodnota testové statisiky (toto číslo porovnáváme s kritickým oborem df = 81 počet stupňů volnosti p-value... numericky spočtená skutečná hladina testu 95 percent confidence interval... 95% konfidenční interval (pokud je 0 uvnitř tohoto intervalu, nemůžeme na hladině 5% zamítnout nulovou hypotézu) sample estimates: corr... hodnota výběrového korelačního koeficientu, na níž je test založen Nebot p-hodnota je rovna p = 0, 01668, je vidět v našem případě ulvou hypotézu zamítáme na hladinách větších než 1, 668%.

Test nulovosti korelačního koeficientu Test nulovosti korelačního koeficientu oproti alternativě, ze je větší než nula - úloha (B) cor.test(data$body,data$dochazka, alternative="greater", method ="pearson") Pearson s product-moment correlation data: DATA$body and DATA$dochazka t = 2.4445, df = 81, p-value = 0.008338 alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: 0.08427723 1.00000000 sample estimates: cor 0.2621148 Výstupy testu jsou stejné jako v případě testování pří oboustranné alternativě. Jak vidíme, p-hodnota testu je p = 0, 008338, takže nulovou hypotézu zamítáme ve prospěch alternativy, že veličiny jsou kladně korelované, na každé hladině testu větší než 0, 8338%. Pro všechny takové hladiny tedy lze statisticky významně tvrdit, že veličiny se pozitivně ovlivňují.

Typ závislosti Pokud bychom si chtěli jednoduše bodově vykreslit závislost mezi body a docházkou, můžeme použít příkazu plot: plot(data) dochazka 0 20 40 60 80 100 0 50 100 150 body

Spermanův test nezávislosti Jak je vidět, data nevypadají, že by byla lineárně závislá. Přesto bychom přirozeně čekali, že by vysoká docházka mohla mít pozitivní vliv na výsledky testů. Neboli, že vztah mezi body a docházkou je (až na náhodný faktor) rostoucí funkce. Tímto monotónním typem závislosti se zabývá Spearmanův korelační koeficient. Můžeme tedy použít k testování tento koeficient a to jednoduše tím, že v argumentu method nahradíme "pearson" slovem "spearman". cor.test(data$body,data$dochazka,alternative="greater", method="spearman") Spearman s rank correlation rho data: DATA$body and DATA$dochazka S = 62343.62, p-value = 0.0006845 alternative hypothesis: true rho is greater than 0 sample estimates: rho 0.3457074 Warning message: In cor.test.default(data$body, DATA$dochazka, alternative = "greater", : Cannot compute exact p-values with ties

Poznámka: rho je výběrový Spearmanův korelační koeficient. Warning message pouze říká, že pro naše data není spočtená přesná hodnota p, ale je pouze odhadnutá pomocí numerického algoritmu. Ježto je ale menší než jedno procento, je to pro nás i tak dostačující údaj, abychom zamítli nekorelovanost ve prospěch alternativy, že vztah mezi body a docházkou je rostoucí funkce.

Na hladinách minimálně jedno procento a výše se nám podařilo prokázat souvislost mezi docházkou a počtem bodů získaných z testů z Matematiky I. Dokonce se nám statisticky významně na hladinách nejméně jedno procento potvrdila hypotéza o tom, že se docházka a počty bodů navzájem pozitivně ovlivňují. Všechny provedené testy jsou, vzhledem k předpokládané nenormalitě dat, pouze asymptotické.