Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment 1 / 21
Brief Overview Zakladni ulohy ve statistice Zakladni ulohou statistiky je z nejistych vysledku (nahodnych pozorovani) vyhodit velmi konkretni a specificke zavery, zavery, kterych platnost dokazeme zobecnit nad ramec sledovanych udalosti. Inference o jednotlivych paramerech popisujicich model ohady parametru, intervaly spolehlivosti, testy statistickych hypotez Srovnavani (zjistovani rozdilu) dvou ruznych skupin (klasicke dvouvyberove testy, nejcasteji z normalniho rozdeleni) Vysetrovani rozdilu u nekolik ruznych skupin (inference o rozdilech vzhledem k metode analyzy rozptylu) Srovnavani dvou a vice spojitych promennych (napr. model jednoduchej linearnej regrese a mnohe jine metody) 2 / 21
Brief Overview Uzitecne funkce v R-ku funkce pro standardne normalne rozdeleni: pnorm() a qnorm() funkce pro klasicke t-testy: t.test() funkce pro testovani rozptylu: var.test() funkce pro analyzu rozptylu: anova() funkce pro linearni regresni model: lm() 3 / 21
Brief Overview Overovani potrebnych predpokladu kazda statisticka metoda vyzaduje splneni urcitych predpokladu k tomu, aby jeji vysledky byli korektne (pouzitelne, aplikovatelne); (napr. nezavislost, stejne rozdeleni, normalita, homoskedasticita, a pod.) nesplneni predpokladu muze mit zasadny vliv na vysledky celkove analyzy - vysledky sice ziskame, ale obecne neplati; (obecne nelze zjistit, jestli vysledky plati, nebo ne... - muze/nemusi) kdyz nektere predpoklady neplati, neznamena to, ze neni mozne data statisticky spracovat, pouze je nutne hledat jinou metodu; (existuje obrovske mnozstvi ruznych postupu, metod a principov, staci je spravne pouzivat... ) 4 / 21
Brief Overview Overovani potrebnych predpokladu kazda statisticka metoda vyzaduje splneni urcitych predpokladu k tomu, aby jeji vysledky byli korektne (pouzitelne, aplikovatelne); (napr. nezavislost, stejne rozdeleni, normalita, homoskedasticita, a pod.) nesplneni predpokladu muze mit zasadny vliv na vysledky celkove analyzy - vysledky sice ziskame, ale obecne neplati; (obecne nelze zjistit, jestli vysledky plati, nebo ne... - muze/nemusi) kdyz nektere predpoklady neplati, neznamena to, ze neni mozne data statisticky spracovat, pouze je nutne hledat jinou metodu; (existuje obrovske mnozstvi ruznych postupu, metod a principov, staci je spravne pouzivat... ) Overeni a zajisteni platnosti vsech nutnych predpokladov ktere metoda vyzaduje, je zakladni ulohou statistika! 4 / 21
Zobecneni principu obycejnej linearni regrese Jine regresne modely a vyuziti Obycejny linearni regresni model - regresni primka; 5 / 21
Zobecneni principu obycejnej linearni regrese Jine regresne modely a vyuziti Obycejny linearni regresni model - regresni primka; Linearni regresni modely; Nelinearni parametricke modely; Neparametricke a semiparametricke regresne modely; 5 / 21
Zobecneni principu obycejnej linearni regrese Jine regresne modely a vyuziti Obycejny linearni regresni model - regresni primka; Linearni regresni modely; Nelinearni parametricke modely; Neparametricke a semiparametricke regresne modely; Zobecnene regresne modely; Regresne modely pro opakovane pozorovani; Regresni modely pro zavisle pozorovani; Komplexne (robustne, nespojite a pod.) regresni modely; 5 / 21
Zobecneni principu obycejnej linearni regrese Jine regresne modely a vyuziti Obycejny linearni regresni model - regresni primka; Linearni regresni modely; Nelinearni parametricke modely; Neparametricke a semiparametricke regresne modely; Zobecnene regresne modely; Regresne modely pro opakovane pozorovani; Regresni modely pro zavisle pozorovani; Komplexne (robustne, nespojite a pod.) regresni modely;... 5 / 21
Zobecneni principu obycejnej linearni regrese Linearni regresni model - parabola 6 / 21
Zobecneni principu obycejnej linearni regrese Dolphin data - regresny model 7 / 21
Zobecneni principu obycejnej linearni regrese Nelinearny regresny model 8 / 21
Zobecneni principu obycejnej linearni regrese Nelinearny regresny model 9 / 21
Neparametricke Statisticke Metody 10 / 21
Parametricke a neparametricke statisticke metody Parametricke vs. Neparametricke casto automaticky predpokladame parametricky zaklad experimentu; (napr. pozorovani z normalniho rozdeleni parametre µ a σ 2 ) 11 / 21
Parametricke a neparametricke statisticke metody Parametricke vs. Neparametricke casto automaticky predpokladame parametricky zaklad experimentu; (napr. pozorovani z normalniho rozdeleni parametre µ a σ 2 ) X 1,..., X n N(µ, σ 2 ) napr. zo skusenosti predpokladame rozdeleni; nebo je rozdeleni urceno povahou experimentu; 11 / 21
Parametricke a neparametricke statisticke metody Parametricke vs. Neparametricke casto automaticky predpokladame parametricky zaklad experimentu; (napr. pozorovani z normalniho rozdeleni parametre µ a σ 2 ) X 1,..., X n N(µ, σ 2 ) napr. zo skusenosti predpokladame rozdeleni; nebo je rozdeleni urceno povahou experimentu; nekdy je vyhodne predpokladat pouze nejake obecne rozdeleni; (nezname rozdeleni bez jakekoli podrobnejsi specifikace rozdeleni G) 11 / 21
Parametricke a neparametricke statisticke metody Parametricke vs. Neparametricke casto automaticky predpokladame parametricky zaklad experimentu; (napr. pozorovani z normalniho rozdeleni parametre µ a σ 2 ) X 1,..., X n N(µ, σ 2 ) napr. zo skusenosti predpokladame rozdeleni; nebo je rozdeleni urceno povahou experimentu; nekdy je vyhodne predpokladat pouze nejake obecne rozdeleni; (nezname rozdeleni bez jakekoli podrobnejsi specifikace rozdeleni G) X 1,..., X n G napr. kdyz neni mozne jednoznacne urcit vhodne rozdeleni; nebo o vhodnem rozdeleni mame pochybnosti; nebo vhodne parametricke rozdeleni vubec neexistuje; 11 / 21
Parametricke a neparametricke statisticke metody Vyhody a nevyhody Parametricke statisticke postupy hodne jednoduche a nenarocne metody; casto hodne primocara interpretace vysledky; rychlejsi konvergence (vetsi presnost vysledku); hodne omezene pouziti v praxi; hodne citlive na nesplneni nutnych predpokladu; Neparametricke statisticke postupy mnohem narocnejsi a slozitejsi statisticke metody; casto narocnejsi interpretace vysledku; oproti parametrickym metodam pomalsi konvergence (mensi presnost); vpodstate neomezene vyuziti v praxi; pouze minimalne, pripadne zadne predpoklady; 12 / 21
Parametricke a neparametricke statisticke metody Zakladny princip fungovani Parametricke statisticke postupy zajimaji nas pouze parametre, ktere popisuji rozdeleni; parametre umime odhadnout pomoci vyberovych momentu; pro skonstruovane odhady umime urcit jejich rozdeleni; Neparametricke statisticke postupy nezajima nas rozdeleni, casto ani konkretne hodnoty pozorovani; casto vyuzivame napr. poradove statistiky - poradi; mnoho neparametrickych metod je zalozeno pouze na poradi; 13 / 21
Nektere neparametricke statisticke testy Nektere jednovyberove testy Nejcastejsi neparametricke testy, ktere pouze vyzaduji spojite rozdeleni a urcitou miru symetrie (median, nebol stredni hodnota): Znamekovy test pouze vyzaduje spojite rozdeleni a testujeme hodnotu pro median; Wilcoxonuv test pouze vyzaduje spojite rozdeleni a symetrii kolem nejakeho bodu; Casto funguji i pro hodne maly nahodny vyber... vetsinou pocitame presne p-hodnoty a jenom pro vetsi nahodny vyber aproximujeme napr. normalnim rozdelenim. 14 / 21
Nektere neparametricke statisticke testy Nektere dvouvyberove testy Nejcastejsi dvouvyberove testy, ktere pracuji na neparametrickem principu - vyuzivaji pouze poradi a vyzaduji hodne slabe predpoklady: Dvouvyberovy Wilcoxonuv test vyzaduje pouze nezavisle vybery ze spojitych rozdeleni s c.d.f. F a G; Kolmogoruv-Smirnovuv test vyzaduje pouze nezavisle nahodne vybery z dvou rozdeleni s c.d.f. F a G; 15 / 21
Nektere neparametricke statisticke testy Kruskal-Wallisuv test Tento test je neparametrickou obdobou analyzy rozptylu jednoducheho trizeni (zobecneni dvouvyberoveho Wilcoxonovho testu). 16 / 21
Nektere neparametricke statisticke testy Kruskal-Wallisuv test Tento test je neparametrickou obdobou analyzy rozptylu jednoducheho trizeni (zobecneni dvouvyberoveho Wilcoxonovho testu). pouziva se specialne v pripadech, kdyz se rozdeleni nahodnych vyberu hodne lisi od normalniho rozdeleni (predpoklad metody ANOVA); mame nekolik vyberu ze spojitych rozdeleni s distribucnimi funkcemi F 1,..., F k a testujeme nulovou hypotezu H 0 : F 1 = = F k 16 / 21
χ 2 testy nezavislosti a dobre zhody 17 / 21
Nektere neparametricke statisticke testy χ 2 test nezavislosti Kontingencni tabulka - sledujeme dva ruzne (faktorove) znaky v nahodnem vyberu a jejich relativne cetnosti nazorne zobrazime do vhodne 2D tabulky; Nezavislost - casto nas pak zajima, jestli hodnoty jednoho znaku nejakym spusobem ovlivnuji ocekavane hodnoty druheho znaku - resp. jestli jsou dva sledovane znaky vzajemne nezavisle; χ 2 - test - za platnosti nulove hypotezy (H 0 : dva sledovane znaky jsou vzajemne nezavisle) plati, ze zdruzene rozdeleni v kazde bunce je dane jako sucin prislusnych marginalu; Rozhodnuti - statisticky test pouze vyhodnosti, jestli skutecnost kteru mame v tabulce zodpoveda tomu, co rika nulova hypoteza; p-hodnota - spocteme p-hodnotu, ktera nam rika, jak moc daleko od nulove hypotezy jsme, nulovou hypotezu pak bud zamitame, nebo nezamitame; 18 / 21
Nektere neparametricke statisticke testy χ 2 test dobre zhody Tabulka s relativnymi cetnostmi - s nasledovanych dat umime udelat tabulku s relativnimi (nebo absolutnymi) cetnostmi; Dobra zhoda - nekdy nas zajima, jestli hodnoty ktere sleduje, koresponduju s predpokladanymi pravdepodobnostmi, ktere jsme predem stanovili; χ 2 - test - za platnosti nulove hypotezy umime spocitat, jak by meli vypadat relativne cestnosti v nasem nahodnem vyberu; Rozhodnuti - statisticky test pouze vyhodnosti, jestli skutecnost kteru mame v tabulce zodpoveda tomu, co rika nulova hypoteza; p-hodnota - spocteme p-hodnotu, ktera nam rika, jak moc daleko od nulove hypotezy jsme, nulovou hypotezu pak bud zamitame, nebo nezamitame; 19 / 21
Nektere neparametricke statisticke testy χ 2 testy v programu R v statistickem softwaru R pouzivame funkci chisq.test(); tuhle funkci lze pouzit pro χ 2 testy nezavislosti a stejne tak pro chi 2 testy dobre zhody; rozhodnuti o testu je zcela analogicke - na zaklade uvedene pp-hodnoty; > chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000) 20 / 21
Nektere neparametricke statisticke testy Zaver a opakovani zaverecny prehled a opakovani; otazky a postrehy; priprava na testy; 21 / 21