Tabulární data, pozorované vs očekávané četnosti
|
|
- Šimon Vratislav Bařtipán
- před 9 lety
- Počet zobrazení:
Transkript
1 Tabulární data, pozorované vs očekávané četnosti Máme data o počtech např. samců a samic v populaci a zajímá nás, zda naše pozorované (observed) četnosti se liší od předpokládaného (expected). Příklad je tedy: celkem uloveno 47 zvířat, 29 samců a 18 samic; teoretický předpoklad je že zastoupení samců a samic je shodné, tedy 50:50. Nejprve vytvoříme vektor četností: zver<-c(29,18), který pak použijeme ve funkci chisq.test; chisq.test(zver). Tím, že jsme zadali pouze jeden parametr, fce předpokládá rovnoměrné zastoupení ve skupinách, tedy 50:50. Výsledkem je p-value = , což značí, že nezamítneme hypotézu H0. Tím tedy můžeme říci, že námi pozorované četnosti mohou pocházet z populace se stejným zastoupením samců a samic. Dalším příkladem na srovnání pozorovaných a očekávaných četností jsou např. Mendelovy hrachy a štěpné poměry. Data jsou následující: žluté, kulaté žluté, svrasklé zelené, kulaté zelené, svrasklé pozorované četnosti očekávané štěpné poměry Vytvoříme dva vektory pro pozorované a očekávané četnosti: hr.pozor<-c(315,101,108,32) a hr.ocek<-c(9,3,3,1) a následně použijeme fci chisq.test. V případě, že zadáváme očekávané četnosti tak, že součet vektoru není 1, je třeba u fce chisq.test použít parametr rescale.p=true. Samotný test pak tedy vypadá následovně chisq.test(hr.pozor,hr.ocek,rescale.p=true) p-value je v tomto případě vysoké, tedy opět nezamítáme hypotézu H0 a můžeme s klidným svědomím prohlásit, že pozorované četnosti odpovídají teoretickým štěpným poměrům. Frekvenční analýza, čtyřpolní tabulky V následujícím příkladě nás zajímá, zda sekání má pozitivní vliv na reprodukci studovaného druhu. V experimentu tedy máme dva druhy ošetření (sekané, nesekané) a pro každé máme patnáct ploch. V průběhu sezóny sledujeme, jestli druh vykvete. Nezajímá nás tedy kolik jedinců vykvete, ale zda se na ploše objeví alespoň jedna kvetoucí rostlina. Výsledná tabulka sledování je zde: X7 Faktor5 Faktor X7 - četnost pozorování, Faktor5 - typ ošetření (sekaná - 1, kontrola - 2), Faktor6 - kvetení (vykvetl - 1, nevykvetl - 2) Experimenty s četnostmi nějakého jevu v závislosti na působení dvou či více faktorů se řeší pomocí metod frekvenční analýzy. V našem případě máme pouze dva faktory a oba mají pouze dvě hladiny, a tak se jedná o nejjednodušší typ frekvenčních analýz - tzv. čtyřpolní tabulku. Frekvenční analýzy se obvykle řeší pomocí testů Chí-kvadrát nebo Fisherovým
2 exaktním testem (ten pouze pro čtyřpolní tabulky). Předpokladem a nulovou hypotézou testu je nezávislost působení obou faktorů. Pokud zadáme data do sloupců (sloupec četností, a kódování pro faktory), lze v S+ pouze vytvořit "Crosstabulation" z menu Statistics>Data Summarries>Crosstabulations... V příkazovém řádku R fci xtabs. *** Crosstabulations *** Call: crosstabs(formula = X7 ~ Faktor5 + Faktor6, data = SDF1, na.action = na.exclude, drop.unused.levels = T) 30 cases in table N N/RowTotal N/ColTotal N/Total Faktor5 Faktor6 1 2 RowTotl ColTotl Test for independence of all factors Chi^2 = d.f.= 1 (p= ) Yates' correction not used Tabulka spočte "observed" proporce pro jednotlivé faktory a to jak pro celková data (N/Total) tak i pro jednotlivé řádky a sloupce. Pokud chceme spočíst očekávané "expected" četnosti, musíme počítat v ruce: pro kombinaci 1&1 počítáme z marginálních četností (15*19)/30=9.5. V menu pro vytvoření tabulky bohužel nelze nastavit podrobnější parametry Chí-kvadrát testu (Yatesova korekce). Pokud bychom chtěli spočíst Fisherův exaktní test či Chí-kvadrát s Yatesovou korekcí, je třeba data zadat buď přímo do kontingenční tabulky, nebo přímo pro každé sledování vlastní řádek (tj. v tomto případě: třináctkrát ve sloupcích Faktor5 a Faktor6 jedna, dvakrát ve sloupci Faktor5 jedna a Faktor6 dva...). Z menu voláme Statistics>Compare Samples>Counts and Proportions a poté buď Fisherův exaktní test či Chí-kvadrát. Výsledkem jsou tedy: Fisher's exact test data: Faktor5 and Faktor6 from data set frekv p-value = alternative hypothesis: two.sided
3 Pearson's chi-square test with Yates' continuity correction data: Faktor5 and Faktor6 from data set frekv X-square = , df = 1, p-value = V našem případě oba testy zamítly nulovou hypotézu o nezávislosti působení obou jevů. Pokud chceme říci které kombinace faktorů jak ovlivňují kvetení, musíme ještě dopočítat očekávané četnosti a na základě porovnání se skutečnými správně interpretovat. Z výsledků v našem příkladu můžeme říci, že sekání louky pozitivně ovlivňuje kvetení sledovaného druhu rostliny. Yatesova korekce (dostupná pouze pro tabulky 2 2) je zde použita, protože frekvenční tabulky obsahují diskrétní data, avšak Chí-kvadrát je rozdělení spojité. Zejména by se měla použít, pokud se jedná o tabulky kdy pozorované četnosti jsou nízké (<5). Pro tyto tabulky je vhodnější použít Fisherův exaktní test. observed expected pozorované očekávané sekaná/vykvetl 13 > (15*19)/30 = 9.5 sekaná/nevykvetl 2 < (15*11)/30 = 5.5 kontrola/vykvetl 6 < (15*19)/30 = 9.5 kontrola/nevykvetl 9 > (15*11)/30 = 5.5 Alternativou pro analýzu dat kde vysvětlující proměnné jsou kategoriální a vysvětlovanou počty jsou kromě výše uvedených Chí-kvadrát testu a Fisherova exaktního testu i zobecněné lineární modely. Použijeme log-lineární model s poissonovským rozdělením chyb. V S+ pro tyto výpočty používáme funkci glm. Její parametry jsou obdobné jako u např. lm (lineární regrese). Jen je třeba doplnit typ rozložení chyb, v našem případě: poisson. Model uložíme pod jménem "pokus" a píšeme tedy: pokus<-glm(x7~faktor1+faktor2, data=sdf1, poisson) Výsledek vyvoláme a z celého výpisu nás zajímá pouze hodnota residuální deviance. pokus Call: glm(formula = x7 ~ f1 + f2, family = poisson, data = SDF1) Coefficients: (Intercept) f1 f e Degrees of Freedom: 4 Total; 1 Residual Residual Deviance: Hodnotu residuální deviance srovnáme s hodnotou Chí-kvadrátu s jedním stupněm volnosti. Pro výpočet hladiny významnosti voláme: 1-pchisq(7.46,1) [1] Což ukazuje obdobný výsledek jako když jsme příklad počítali Fisherovým testem či přímo Chí-kvadrátem. Pozorované a očekávané hodnoty si vypíšeme pro určení, které kombinace faktorů mají pozitivní či negativní efekt.
4 > SDF1$x7 [1] > fitted(model)
5 Logistická regrese Pokud máme závislou proměnnou kategoriální a ještě k tomu nabývá pouze dvou hodnot (přežil/nepřežil, kvete/nekvete, nakažený/nenakažený) a zajímá nás které faktory a jak je ovlivňují. V následujícím příkladu nás bude zajímat jak je pravděpodobnost přežití rostliny ovlivněna množstvím vytvořených semen v závislosti na její velikosti. K dispozici máme údaje o 59 jedincích, zda přežili do další sezóny (surv: 0 - nepřežil, 1 - přežil; flow - počet úborů, root - velikost kořene). Data jsou z příkladu GLEX26 programového balíku GLIM. Výpočet je založen na závislosti p = e y /(1+e y ), kde hodnoty y získáme z regresních koeficientů (viz níže). 1. Výpočet Vlastní analýzu budeme počítat pomocí logistické regrese z menu Statistics>Regression>Logistic... Menu, kde zadáváme vlastní analýzu se příliš neliší od klasické regrese. V tomto příkladě využijeme možnosti S+ a uložíme si model analýzy jako samostatný objekt se kterým budeme později pracovat. Pro uložení je potřeba jen zadat jméno analýzy do okna "Save Model Object". Po zadání analýzy máme obecnou rovnici: surv~flow+root. Ve výsledcích jsou opět uvedeny hodnoty pro rozdělení reziduí. Hlavní výsledek je v části "Coefficients" kde jsou uvedeny regresní koeficienty pro jednotlivé proměnné spolu s jejich standardními chybami a t-hodnotami. Pravděpodobnosti pro jednotlivé proměnné je třeba dopočítat ručně či je můžeme otestovat delečními testy (funce drop1). Z příkazového řádku voláme logistickou regresi: glex.1<-glm(surv~flow+root, data=glex26, binomial). *** Generalized Linear Model *** Call: glm(formula = surv ~ flow + root, family = binomial(link = logit), data = GLEX26, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value (Intercept) flow root (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: on 58 degrees of freedom Residual Deviance: on 56 degrees of freedom Number of Fisher Scoring Iterations: 5
6 2. Test proměnných (funce drop1) To zda jsou pro model významné můžeme otestovat kromě t-testu obdobným způsobem jako u "stepwise" analýzy, tedy postupně odebírat jednotlivé proměnné a sledovat výslednou statistiku Cp, která bere v potaz množství vysvětlené variability a počet proměnných zahrnutých v modelu. Máme-li uložený model pod jménem "glex.1" vyvoláme analýzu postupného odebírání proměnných funkcí drop1. V okně "Commands" tedy voláme: drop1 (glex.1) a dostáváme tabulku. > drop1(glex.1) Single term deletions Model: surv ~ flow + root Df Sum of Sq RSS Cp <none> flow root Testovací statistika Cp v žádném případě neklesla pod hodnotu kompletního modelu a tak tedy můžeme zahrnout obě proměnné do modelu. Získané závislosti tedy ukazují, že čím méně vytvořených květních úborů, tím vyšší pravděpodobnost přežití a zároveň s velikostí kořene také klesá pravděpodobnost smrti. Získaná regresní rovnice by tedy vypadala: y = *flow *root a pravděpodobnosti přežití pro jedince s danými parametry bychom získali po zadání do výše zmíněné rovnice p = e y /(1+e y ). Pokud chceme spočíst pravděpodobnost přežití pro jedince s námi známými parametry, pak můžeme využít další funkce predict. Pro jedince s počtem úborů 30 a velikostí kořene 0.52 voláme: predict(glex.1,list(seeds=30,size=0.52),type="response"). Prvním parametrem funkce je jméno modelu, který je použit pro výpočet, dále následuje seznam hodnot pro všechny proměnné v modelu, v našem případě pro seeds a size. Poslední parametr zajišťuje převedení výsledku do intervalu 0 až 1. Výsledkem je tedy 77procentní pravděpodobnost přežití pro zadanou rostlinu. 3. Grafické znázornění Získané závislosti pro jednotlivé proměnné si můžeme znázornit také v grafech.v S+ je to jednodušší provést pomocí příkazového řádku. Využijeme pro vytvoření grafu minulé funkce predict. Pro graf závislosti přežití na počtu vytvořených úborů musíme vytvořit odpovídající model (glex.flow<-glm(surv~flow, data=glex26, binomial. Dále si zjistíme rozsah hodnot, kterých může nabývat počet úborů (min(flow) a max(flow). Pro graf tedy bude rozumné použít na ose x hodnoty od 0 do 180. Vytvoříme pomocnou proměnnou rada<-seq(0,180, 10). Pro hodnoty této pomocné proměnné pak budeme počítat predikované hodnoty a těmi pak proložíme výslednou křivku. Nejdříve si vyneseme hodnoty počtu úborů oproti přežití a poté do grafu přidáme fitovanou křivku. Voláme tedy: >plot(flow,surv) >lines(rada,predict(glex.flow,list(flow=rada),type="response"))
7 surv flow 4. Vliv interakce (funkce update) Avšak může nás také zajímat, jaká je závislost mezi přežitím a oběma parametry navzájem, tedy interakce mezi velikostí a investicí do reprodukce. Přidáme tedy do našeho modelu hodnoty interakcí. Interakce přidáme jednoduše buď vytvořením nového modelu či pomocí funkce update. Změnu modelu zadáme pomocí "tečkové" konvence v S+. Model můžeme obecně vyjádřit jako závislost proměnné na levé straně na proměnných, které jsou uvedeny na straně pravé. Tedy v našem případě surv ~ flow + root, což je obecně. ~., kde tečka zastupuje veškeré proměnné na dané straně rovnice. Pokud tedy do modelu glex.1 chceme přidat interakce pak použijeme funkci update takto: update (glex.1,. ~. +flow:root). Obdobným způsobem můžeme proměnné i odebírat. Pro náš příklad tedy vytvoříme nový model (glex.full) na základě glex.1 s přidanými interakcemi. Voláme tedy: glex.full<-update(glex.1,.~.+flow:root) Po vyvolání modelu glex.full již S+ vypíše celý model i s interakcemi > glex.full Call: glm(formula = surv ~ flow + root + flow:root, family = binomial(link = logit), data = GLEX26, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F)) Coefficients: (Intercept) flow root flow:root Degrees of Freedom: 59 Total; 55 Residual Residual Deviance: Nyní stejným způsobem jako pro model glex.1 bez interakcí otestujeme významnost jednotlivých proměnných. pomocí funkce drop1. > drop1(glex.full) Single term deletions
8 Model: surv ~ flow + root + flow:root Df Sum of Sq RSS Cp <none> flow:root A opět vidíme, že všechny proměnné použité v našem modelu mají své opodstatnění. Použité interakce v modelu (regresní koeficient ) můžeme interpretovat tak, že větší rostliny mají nižší pravděpodobnost přežití pokud vytvoří stejný počet květních úborů jako menší jedinci. Srovnáme-li jednotlivé modely s interakcí a bez ní (obdobně jako např. u mnohonásobné regrese) vidíme, že modely se výrazně liší a tedy přidaná interakce výrazně ovlivnila vysvětlenou variabilitu modelu a měli bychom ji tedy zahrnout. Avšak pozor, zde používáme jako testovací statistiku rozdělení Chí-kvadrát! > anova(model,model2, test="chi") Analysis of Deviance Table Response: surv Terms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 seeds + size seeds + size + seeds:size seeds:size > Získaná (a finální) regresní rovnice tedy vypadá: y = *flow *root *flow:root a odhadnuté pravděpodobnosti přežití pro dané hodnoty vytvořených úborů a velikosti kořene získáme zadáním do p = e y /(1+e y ). Pokud budeme pravděpodobnosti přežití počítat v ruce, pak hodnoty pro interakce získáme prostým vynásobením hodnot pro kořen a květenství. Pokud chceme data s interakcí zobrazit v grafu, lze použít postup, kdy např. pro určité hodnoty velikosti kořene vynášíme průběhy prsti přežití vs. počet úborů. Postup je obdobný jako u nakreslení jednoduché závislosti. Liší se pouze v nutnosti zadat hodnoty pro všechny vysvětlované proměnné. Např tedy pokud budu chtít v grafu mít na ose x počet úborů a jednotlivé čáry budou vybrané průměry kořenu zjistím rozsahy hodnot kterých může nabývat počet úborů a velikost kořene. Pro počet úborů vytvořím pomocnou proměnnou funkcí seq (rada). Pro hodnoty této pomocné proměnné a pak budeme počítat predikované hodnoty a těmi pak proložíme výslednou křivku. Nejdříve si vyneseme hodnoty počtu úborů oproti přežití a poté do grafu přidáme fitovanou křivku. Voláme tedy: >plot(flow,surv) >lines(rada,predict(glex.flow,list(flow=rada,size=rep(0.1,length (rada)),type="response")) Předchozí příkaz tedy kreslí průběh pravděpodobnosti přežití pro celý rozsah počtu úborů, při konstantní velikosti kořene 0.1. Stejný příkaz mohu opakovat pro různé velikosti kořene a tím získat představu o charakteru interakce a vlivu jednotlivých charakteristik pro přežití.
9 Použitá data z příkladu glex26 pro program GLIM: surv flow root
10
Frekvenční analýza, čtyřpolní tabulky
Frekvenční analýza, čtyřpolní tabulky V následujícím příkladě nás zajímá, zda sekání má pozitivní vliv na reprodukci studovaného druhu. V experimentu tedy máme dva druhy ošetření (sekané, nesekané) a pro
05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")
Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat
Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.
Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese 1. Vliv odlehlých hodnot Na následujících dvou příkladech ukážeme jak odlehlé hodnoty (outliers) ovlivňují výsledek analýzy a jak je identifikovat.
M cvičení : GLM04b (Vztah mezi Poissonovým a
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,
M cvičení : GLM03a (The Working Activities of Bees)
RNDr. Marie Forbelská, Ph.D. 1 M7222 3. cvičení : GLM03a (The Working Activities of Bees) Popis dat je v souboru bees.txt, samotná data jsou uložena v souboru bees.dat. Nejprve načteme popisný soubor pomocí
Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6
1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
Fisherův exaktní test
Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese
- základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze - základní ukazatele Načtení vstupních dat Vstupní data
Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků
Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
PSY117/454 Statistická analýza dat v psychologii Přednáška 10
PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.
II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal
Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,
Seminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání
Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání 1. Analýzu variance (ANOVu) používáme při studiu problémů, kdy máme závislou proměnou spojitého typu a nezávislé proměnné
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
Seminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se středeční a čtvrteční seminární skupiny liší ve výsledcích v 1. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
Příklad: Test nezávislosti kategoriálních znaků
Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a
Přednáška X. Testování hypotéz o kvantitativních proměnných
Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody
M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)
RNDr. Marie Forbelská, Ph.D. 1 M7222 5. cvičení : GLM05b (Trojrozměrné kontingenční tabulky) Příklad: Průzkum na školách V roce 1992 byl uskutečněn průzkum na školách Wright State University School of
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní
Kontingenční tabulky a testy shody
Kontingenční tabulky a testy shody 4.1.2018 Kontingenční tabulky 1. Tabulka 1 shrnuje osudy pasažérů lodě Titanic, která tragicky ztroskotala v roce 1912. Zajímá nás, zda existuje nějaká souvislost mezi
Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Analýza dat z dotazníkových šetření
Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
INDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PRINCIPY STATISTICKÉ INFERENCE identifikace závisle proměnné
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij
Testy dobré shody Máme dvě veličiny a předpokládáme, že jsou nezávislé (platí nulová hypotéza nezávislosti). Často chceme naopak prokázat jejich závislost. K tomu slouží: TESTY DOBRÉ SHODY (angl. goodness-of-fit
ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII
ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno ÚVOD DO LOGLINEÁRNÍHO MODELOVÁNÍ historie - až do 60. let se k analýze kontingenčních tabulek
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
M cvičení : GLM01a (Toxic Chemical Production Data)
RNDr. Marie Forbelská, Ph.D. 1 M7222 1. cvičení : GLM01a (Toxic Chemical Production Data) Popis dat je v souboru toxic.txt, samotná data jsou uložena v souboru toxic.dat. Nejprve načteme popisný soubor
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Vícenásobná regresní a korelační analýza 1 1 Tto materiál bl vtvořen za pomoci grantu FRVŠ číslo 1145/2004. O vícenásobné závislosti mluvíme tehd, jestliže je závisle proměnná závislá na více nezávislých
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
Plánování experimentu
SEMESTRÁLNÍ PRÁCE Plánování experimentu 05/06 Ing. Petr Eliáš 1. NÁVRH NOVÉHO VALIVÉHO LOŽISKA 1.1 Zadání Při návrhu nového valivého ložiska se v prvotní fázi uvažovalo pouze o změně designu věnečku (parametr
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných
Výběr metody Jak vybrat správnou statistickou metodu pro moje data a pro otázku, kterou si kladu Neexistuje žádná náhražka za zkušenost nejlepší metoda, jak vědět co dělat, je použít stejnou správnou metodu
Aplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.
Neparametricke testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
StatSoft Jak poznat vliv faktorů vizuálně
StatSoft Jak poznat vliv faktorů vizuálně V tomto článku bychom se rádi věnovali otázce, jak poznat již z grafického náhledu vztahy a závislosti v analýze rozptylu. Pomocí následujících grafických zobrazení
(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.
Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita
SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII
ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno SOCIOLOGIE A STATISTIKA nadindividuální společenské struktury podmiňují lidské chování (Durkheim)
Problém 1: Ceny nemovitostí Poznámkykřešení 1
Problém 1: Ceny nemovitostí Poznámkykřešení 1 Zadání 1.Majínemovitostiurčenékbydlenívyššícenutam,kdeječistšíovzduší?Pokudano,okolik? 2. Lze vztah mezi znečištěním a cenou, pokud existuje, vysvětlit tím,
KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica
KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica Vstupní data transformace před vložením Než data vložíme do tabulky ve Statistice, musíme si je předpřipravit. Označme si P Prahu, S Šumperk
Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty
Neparametrické testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
ADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Cvičení ze statistiky - 9. Filip Děchtěrenko
Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz
Cvičení 12: Binární logistická regrese
Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,
Základy biostatistiky (MD710P09) ak. rok 2008/2009
1(229) Základy biostatistiky (MD710P09) ak. rok 2008/2009 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara katedra pravděpodobnosti a matematické statistiky MFF UK (naposledy upraveno
Přednáška IX. Analýza rozptylu (ANOVA)
Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin násobné testování hypotéz Analýza rozptylu jako lineární
Jana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy
Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu
Plánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
velkou variabilitou: underdispersion, overdispersion)
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04a (Problémy s příliš malou či příliš velkou variabilitou: underdispersion, overdispersion) Mějme náhodný výběry n =(Y 1,...,Y n ) T z rozdělení exponenciálního
Design Experimentu a Statistika - AGA46E
Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment
Aplikovaná statistika v R - cvičení 3
Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární
Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
ADDS cvičení 7. Pavlína Kuráňová
ADDS cvičení 7 Pavlína Kuráňová Analyzujte závislost věku obyvatel na místě kde nejčastěji tráví dovolenou. (dotazník dovolená, sloupce Jaký je Váš věk a Kde nejčastěji trávíte dovolenou) Analyzujte závislost
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Matematická statistika Zimní semestr
Kontingenční tabulky, testy shody, jednoduché třídění 8.1.2018 Kontingenční tabulky 1. Tabulka 1 shrnuje osudy pasažérů lodě Titanic, která tragicky ztroskotala v roce 1912. Zajímá nás, zda existuje nějaká
letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Základy biostatistiky (MD710P09) ak. rok 2007/2008
1(208) Základy biostatistiky (MD710P09) ak. rok 2007/2008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara katedra pravděpodobnosti a matematické statistiky MFF UK (naposledy upraveno
Manuální kroková regrese Newsletter Statistica ACADEMY
Manuální kroková regrese Newsletter Statistica ACADEMY Téma: Logistická regrese Typ článku: Novinka verze 12, návody Dnes si popíšeme funkcionalitu, která Vám pomůže při tvorbě regresního modelu (v našem
STATISTICA Téma 7. Testy na základě více než 2 výběrů
STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007
Moderní regresní metody Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Obsah Úvod... 5 1 Klasický lineární model a analýza variance... 7 Motivační příklad... 7 Fitování klasického lineárního
10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
ROZDĚLENÍ NÁHODNÝCH VELIČIN
ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Jméno: Lucie Krechlerová, Karel Kozma, René Dubský, David Drobík Ročník: 2015/2016