Statistické modelování v S-Plus
Pravidla jen tak mezi námi Všechny modely jsou špatné Některé modely jsou lepší než jiné Nikdy si nejsme jisti, že model je správný Čím je model jednodušší, tím je lepší
Typy modelů Nulový Minimální adekvátní (MAM) Současný Maximální Saturovaný
Zjednodušování modelu na MAM Krok Postup Vysvětlení 1 2 3 4 5 Fituj maximální model Začni se zjednodušováním Pokud zjednodušení způsobí nevýznamnou změnu deviance Pokud zjednodušení způsobí významnou změnu deviance Pokračuj v odstraňování parametrů Fituj všechny faktory, interakce a kovariáty, které lze. Zkontroluj reziduály. Zkontroluj overdispersion (Poissonovo n. binomické rozložení chyb; rescale) Prohlédni si parametry pomocí disp e. Odstraň člen vysvětlující nejméně deviance pomocí fit -. Začni s interakcemi nejvyšší třídy. Nech parametr mimo model. Prohlédni si parametry a opět odstraň člen vysvětlující nejméně deviance Vrať parametr do modelu pomocí fit+. Jde o statisticky průkazný člen Opakuj kroky 3 a 4 tak dlouho, dokud model neobsahuje jen průkazné členy. Výsledný model je minimální adekvátní.
Slučování (agregace) Spojování úrovní faktorů, které jsou významné, ale neliší se průkazně jedna od druhé Např. ANOVA: nízká a střední úroveň faktoru se od sebe průkazně neliší, ale liší se průkazně od úrovně vysoké
Okamova břitva Jsou-li ostatní věci stejné, pak: model s n 1 parametry je lepší než model s n parametry model s k 1 vysvětlujícími proměnnými je lepší než model s k proměnnými lineární model je lepší než nelineární model bez interakcí le lepší než model s interakcemi
Okamova břitva Snadno a levně měřitelné proměnné jsou lepší než proměnné těžko či nákladně měřitelné Modely odovozené z teoretických opředpokladů jsou lepší než čistě empirické
Další doporučení pro modelování To, že nám dalo mnoho práce zkoumání faktoru, který se ukázal jako nevýznamný, nás neopravňuje k tomu, abychom ho uchovávali v modelu Jeví-li se nevýznamný faktor jako důležitý (je např. blízko významnosti), opakujte experiment s větším vzorkem
Vzorec modelu závisle proměnná ~ vysvětlující proměnná(-é) y ~ x y ~ sex prává strana znázorňuje: počet a identitu vysvětlujících proměnných (vlastnosti typu kontinuální vs. kategoriální bývají definovány před fitováním modelu) interakce mezi vysvětlujícími proměnnými (jsou-li) nelineární členy vysvětlující proměnné(-ných) další možnosti: offset Error
+ - * / Vzorec modelu Symboly odlišné od aritmetických I, např. y ~ xiz
Vzorec modelu Výrazy se speciálním významem A*B*C je A+B+C+A:B+A:C+B:C+A:B:C A/B/C je A+B%in%A+C%in%B%in%A (A+B+C)^3 je A*B*C (A+B+C)^2 je A*B*C-A:B:C
Interakce mezi vysvětlujícími proměnnými interakce mezi kategoriálními proměnnými počet interakcí je (a-1)(b-1), kde a a b je počet úrovní kategoriálních proměnných interakce mezi kontinuálními proměnnými x*z je x+z+x:z, stejné je nejprve spočítat x.krat.z_x*z a pak fitovat y~x+z+x.krat.z pomněte, že definování interakce součinem je předpoklad, nikoli fakt; skutečná interakce může být např. x*z^2
Interakce mezi kontinuálními a y~a*x kategoriálními proměnnými ANCOVA; fituje zvláštní sklon a průsečík pro každou úroveň faktoru
Hierarchické uspořádání (nesting) y~a/b je totéž co y~a+a:b či y~a+b%in%a znamená, že nedává smysl fitovat efekt proměnné B (jde např. o číslo stromu)
Nelineární členy a polynomy vyšších řádů y~poly(x,3)+poly(z,2) y~(a+b+c)^2 I: přepíše to, co by bylo interpretováno jako vzorec modelu, když ve skutečnosti chceme, aby šlo o aritmetický operátor y~1/x vs y~i1/x I musíme použít, i když chceme na pravé straně násobit pomocí* (jinak by bylo interpretováno jako interakce) či když chceme na pravé straně použít mocninu pomocí ^ (jinak by bylo interpretováno jako interakce řádu ^)
Několikanásobné nevysvětlené variability (Error terms) hierarchická uspořádání (nesting), časové a prostorové pseudoreplikace: Error se stává součástí vzorce modelu
Split-plot design
Error term pro split-plot desin y~a*b*c*d+error(a/b/c)
Nulový model y~x y~x-1 y~sex-1 dá průměry pro každé pohlaví místo rozdílu mezi průměry
Update model_lm(y~a*b) model1_update(model,~.-a:b)
Modelové vzorce pro regresi y = a + bx y = a +bx + cz y ~ x y ~ x + z je-li x kontinuální proměnná, program předpokládá, že chceme fitovat regresi pro nelineární regrese: nls pro nelineární smíšené regrese: nlme
Modelové vzorce pro ANOVU y ~ w, kde w je kategoriální proměnná s k úrovněmi w_factor(w) (pokud w nejsou písmenka) reprezentace ANOVY pro w se dvěma úrovněmi (např. pohlaví: mužské a ženské) y=a+bw 1 +cw 1 y=a+bw 1 +c 0=a+bw 1 pro muže y=a+b 0+cw 2 =a+cw 2 pro ženy bude-li a celkový průměr pro muže a ženy, pak: b bude rozdíl mezi průměry pro muže a celkovým průměrem c bude rozdíl mezi průměry pro ženy a celkovým průměrem v ANOVĚ je průsečík průměr a ostatní parametry jsou rozdíly mezi průměry
Modelové vzorce pro ANCOVU Dva průsečíky a dva sklony směs kontinuálních a kategoriálních proměnných, např. pohlaví a věk: y ~ a 1 + b 1 x pro muže y ~ a 2 + b 2 x pro ženy y ~ w * x první parametr je průsečík, druhý sklon, třetí rozdíl mezi dvěma průsečíky a čtvrtý rozdíl mezi dvěma sklony
Modelové vzorce pro ANCOVU Dva průsečíky a společný sklon y ~ w + x y ~ a 1 + bx pro muže y ~ a 2 + bx pro ženy první parametr je průsečík, druhý je rozdíl mezi průsečíky a třetí je společný sklon
Příklady typů modelů
Kde se modely objevují v modelových funkcích lm(y~x), aov(y~x),gam(y~s(x)), tree(y~x+z) v grafických funkcích plot(x,y), xyplot(y~xiz),coplot(y~xiz), wireframe(y~x*z)
Fitování statistických modelů v S-Plus lm aov glm: error, link gam lme nls nlme loess tree
Obecně použitelné funkce summary: pro lm a aov summary.aov: ANOVA table výsledků summary.lm: seznam parametrů a standardních chyb plot anova update coef fitted resid predict