Statistické modelování v S-Plus



Podobné dokumenty
Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

M cvičení : GLM04b (Vztah mezi Poissonovým a

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

DESIGN HALOGENOVÝCH VÝBOJEK

M cvičení : GLM03a (The Working Activities of Bees)

3. Celistvé výrazy a jejich úprava 3.1. Číselné výrazy

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Frekvenční analýza, čtyřpolní tabulky

Navrhování experimentů a jejich analýza. Eva Jarošová

Typové příklady k opravné písemné práci z matematiky

Úloha 1 Multimetr. 9. Snižte napájecí napětí na 0V (otočením ovládacího knoflíku výstupního napětí zcela doleva).

Princip parsimonie (Occamova břitva)

Regresní a korelační analýza

Logika XI. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

KGG/STG Statistika pro geografy

3. Polynomy Verze 338.

Přehled učiva matematiky 7. ročník ZŠ

Plánování experimentu

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Euklidovský prostor Stručnější verze

Národní informační středisko pro podporu jakosti

Matematická logika. Rostislav Horčík. horcik

1. Základné mocniny Odmocnina Tretia mocnina Tretia odmocnina a

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Plánování experimentu

Design of Experiment (DOE) Petr Misák. Brno 2017

Tabulární data, pozorované vs očekávané četnosti

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

MATEMATICKÁ ANALÝZA A LINEÁRNÍ ALGEBRA PŘÍPRAVA NA ZKOUŠKU PRO SAMOUKY

Způsobilost systému měření podle normy ČSN ISO doc. Ing. Eva Jarošová, CSc.

4ST201 STATISTIKA CVIČENÍ Č. 8

ANOVA PSY252 Statistická analýza dat II

Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS )

Algebraické výrazy. Algebraický výraz je zápis složený z čísel, písmen (označujících proměnné), znaků matematických funkcí ( +, -,, :, 2, ) a závorek.

3. Mocnina a odmocnina. Pythagorova věta

u, v, w nazýváme číslo u.( v w). Chyba! Chybné propojení.,

(n, m) (n, p) (p, m) (n, m)

Využití programu MS Excel při výuce vlastností kvadratické funkce

Tomáš Karel LS 2012/2013

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Statistická analýza jednorozměrných dat

Matematická statistika

Součin matice A a čísla α definujeme jako matici αa = (d ij ) typu m n, kde d ij = αa ij pro libovolné indexy i, j.

1.2.7 Druhá odmocnina

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

STŘEDOŠKOLSKÁ MATEMATIKA

Kreslení elipsy Andrej Podzimek 22. prosince 2005

g) když umocníme na druhou třetinu rozdílu dvou čísel x, y a zvětšíme toto číslo o jejich součin, tak dostaneme výraz?

Plánované experimenty - Návrh

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Hledáme lokální extrémy funkce vzhledem k množině, která je popsána jednou či několika rovnicemi, vazebními podmínkami. Pokud jsou podmínky

Logaritmy a věty o logaritmech

2. Matice, soustavy lineárních rovnic

Vztah mezi počtem květů a celkovou biomasou rostliny

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

OSOBNÍ EFEKTIVITA. Ing. Miloš Paleček (Brno) INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Spokojené m anželství manželství manželství za za hrst hrst hrst pilulek aneb Hormonální antikoncepce, partnerský výbě ýb r a sta t bilit

c) nelze-li rovnici upravit na stejný základ, logaritmujeme obě strany rovnice

6. Matice. Algebraické vlastnosti

20. Výrazy binomické vzorce, rozklad na součin.notebook. March 12, Učivo: Výrazy - umocňování dvojčlenu, rozklad na součin 4. Ročník: 8.

ZADÁNÍ ZKOUŠKOVÉ PÍSEMNÉ PRÁCE Z PŘEDMĚTU LINEÁRNÍ ALGEBRA PRO IT. Verze 1.1A

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

STATISTICAL DESIGN OF EXPERIMENT FOR SOLDER JOINTS QUALITY EVALUATION STATISTICKÉ PLÁNOVÁNÍ EXPERIMENTŮ PRO ÚČELY VYHODNOCOVÁNÍ KVALITY PÁJENÝCH SPOJŮ

Polynomy a interpolace text neobsahuje přesné matematické definice, pouze jejich vysvětlení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Kapitola 1. Tenzorový součin matic

REKTIFIKACE DVOUSLOŽKOVÉ SMĚSI, VÝPOČET ÚČINNOSTI

MATEMATIKA 8. ročník II. pololetí

Pokročilé neparametrické metody. Klára Kubošová

STANOVENÍ NEROVNOSTÍ POVRCHU VOZOVEK A MEZINÁRODNÍHO INDEXU NEROVNOSTI Z MRAČEN BODŮ (LASEROVÉHO SKENOVÁNÍ)

MAGIC GAMES II 750 NEXT GENERATION HERNÍ PLÁN

2.2. SČÍTÁNÍ A NÁSOBENÍ MATIC

Základy číslicové techniky z, zk

1 Mnohočleny a algebraické rovnice

A NUMERICKÉ METODY. Matice derivací: ( ) ( ) Volím x 0 = 0, y 0 = -2.

Tomáš Karel LS 2012/2013

POLYMERTEST Tř.T.Bati 299, Zlín

Chyby nepřímých měření

Stručný návod k programu Octave

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

CZ.1.07/1.5.00/

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

Prostorová variabilita

Základy elektrostatiky v pokusech (Coulombův zákon, kondenzátor)

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE VYUŽITÍ LOGISTICKÉ REGRESE VE VÝZKUMU TRHU

Klasická lineární regrese

Téma je podrobně zpracováno ve skriptech [1], kapitola

Vzorce pro poloviční úhel

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Regresní analýza. Eva Jarošová

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

Lineární Regrese Hašovací Funkce

Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

Transkript:

Statistické modelování v S-Plus

Pravidla jen tak mezi námi Všechny modely jsou špatné Některé modely jsou lepší než jiné Nikdy si nejsme jisti, že model je správný Čím je model jednodušší, tím je lepší

Typy modelů Nulový Minimální adekvátní (MAM) Současný Maximální Saturovaný

Zjednodušování modelu na MAM Krok Postup Vysvětlení 1 2 3 4 5 Fituj maximální model Začni se zjednodušováním Pokud zjednodušení způsobí nevýznamnou změnu deviance Pokud zjednodušení způsobí významnou změnu deviance Pokračuj v odstraňování parametrů Fituj všechny faktory, interakce a kovariáty, které lze. Zkontroluj reziduály. Zkontroluj overdispersion (Poissonovo n. binomické rozložení chyb; rescale) Prohlédni si parametry pomocí disp e. Odstraň člen vysvětlující nejméně deviance pomocí fit -. Začni s interakcemi nejvyšší třídy. Nech parametr mimo model. Prohlédni si parametry a opět odstraň člen vysvětlující nejméně deviance Vrať parametr do modelu pomocí fit+. Jde o statisticky průkazný člen Opakuj kroky 3 a 4 tak dlouho, dokud model neobsahuje jen průkazné členy. Výsledný model je minimální adekvátní.

Slučování (agregace) Spojování úrovní faktorů, které jsou významné, ale neliší se průkazně jedna od druhé Např. ANOVA: nízká a střední úroveň faktoru se od sebe průkazně neliší, ale liší se průkazně od úrovně vysoké

Okamova břitva Jsou-li ostatní věci stejné, pak: model s n 1 parametry je lepší než model s n parametry model s k 1 vysvětlujícími proměnnými je lepší než model s k proměnnými lineární model je lepší než nelineární model bez interakcí le lepší než model s interakcemi

Okamova břitva Snadno a levně měřitelné proměnné jsou lepší než proměnné těžko či nákladně měřitelné Modely odovozené z teoretických opředpokladů jsou lepší než čistě empirické

Další doporučení pro modelování To, že nám dalo mnoho práce zkoumání faktoru, který se ukázal jako nevýznamný, nás neopravňuje k tomu, abychom ho uchovávali v modelu Jeví-li se nevýznamný faktor jako důležitý (je např. blízko významnosti), opakujte experiment s větším vzorkem

Vzorec modelu závisle proměnná ~ vysvětlující proměnná(-é) y ~ x y ~ sex prává strana znázorňuje: počet a identitu vysvětlujících proměnných (vlastnosti typu kontinuální vs. kategoriální bývají definovány před fitováním modelu) interakce mezi vysvětlujícími proměnnými (jsou-li) nelineární členy vysvětlující proměnné(-ných) další možnosti: offset Error

+ - * / Vzorec modelu Symboly odlišné od aritmetických I, např. y ~ xiz

Vzorec modelu Výrazy se speciálním významem A*B*C je A+B+C+A:B+A:C+B:C+A:B:C A/B/C je A+B%in%A+C%in%B%in%A (A+B+C)^3 je A*B*C (A+B+C)^2 je A*B*C-A:B:C

Interakce mezi vysvětlujícími proměnnými interakce mezi kategoriálními proměnnými počet interakcí je (a-1)(b-1), kde a a b je počet úrovní kategoriálních proměnných interakce mezi kontinuálními proměnnými x*z je x+z+x:z, stejné je nejprve spočítat x.krat.z_x*z a pak fitovat y~x+z+x.krat.z pomněte, že definování interakce součinem je předpoklad, nikoli fakt; skutečná interakce může být např. x*z^2

Interakce mezi kontinuálními a y~a*x kategoriálními proměnnými ANCOVA; fituje zvláštní sklon a průsečík pro každou úroveň faktoru

Hierarchické uspořádání (nesting) y~a/b je totéž co y~a+a:b či y~a+b%in%a znamená, že nedává smysl fitovat efekt proměnné B (jde např. o číslo stromu)

Nelineární členy a polynomy vyšších řádů y~poly(x,3)+poly(z,2) y~(a+b+c)^2 I: přepíše to, co by bylo interpretováno jako vzorec modelu, když ve skutečnosti chceme, aby šlo o aritmetický operátor y~1/x vs y~i1/x I musíme použít, i když chceme na pravé straně násobit pomocí* (jinak by bylo interpretováno jako interakce) či když chceme na pravé straně použít mocninu pomocí ^ (jinak by bylo interpretováno jako interakce řádu ^)

Několikanásobné nevysvětlené variability (Error terms) hierarchická uspořádání (nesting), časové a prostorové pseudoreplikace: Error se stává součástí vzorce modelu

Split-plot design

Error term pro split-plot desin y~a*b*c*d+error(a/b/c)

Nulový model y~x y~x-1 y~sex-1 dá průměry pro každé pohlaví místo rozdílu mezi průměry

Update model_lm(y~a*b) model1_update(model,~.-a:b)

Modelové vzorce pro regresi y = a + bx y = a +bx + cz y ~ x y ~ x + z je-li x kontinuální proměnná, program předpokládá, že chceme fitovat regresi pro nelineární regrese: nls pro nelineární smíšené regrese: nlme

Modelové vzorce pro ANOVU y ~ w, kde w je kategoriální proměnná s k úrovněmi w_factor(w) (pokud w nejsou písmenka) reprezentace ANOVY pro w se dvěma úrovněmi (např. pohlaví: mužské a ženské) y=a+bw 1 +cw 1 y=a+bw 1 +c 0=a+bw 1 pro muže y=a+b 0+cw 2 =a+cw 2 pro ženy bude-li a celkový průměr pro muže a ženy, pak: b bude rozdíl mezi průměry pro muže a celkovým průměrem c bude rozdíl mezi průměry pro ženy a celkovým průměrem v ANOVĚ je průsečík průměr a ostatní parametry jsou rozdíly mezi průměry

Modelové vzorce pro ANCOVU Dva průsečíky a dva sklony směs kontinuálních a kategoriálních proměnných, např. pohlaví a věk: y ~ a 1 + b 1 x pro muže y ~ a 2 + b 2 x pro ženy y ~ w * x první parametr je průsečík, druhý sklon, třetí rozdíl mezi dvěma průsečíky a čtvrtý rozdíl mezi dvěma sklony

Modelové vzorce pro ANCOVU Dva průsečíky a společný sklon y ~ w + x y ~ a 1 + bx pro muže y ~ a 2 + bx pro ženy první parametr je průsečík, druhý je rozdíl mezi průsečíky a třetí je společný sklon

Příklady typů modelů

Kde se modely objevují v modelových funkcích lm(y~x), aov(y~x),gam(y~s(x)), tree(y~x+z) v grafických funkcích plot(x,y), xyplot(y~xiz),coplot(y~xiz), wireframe(y~x*z)

Fitování statistických modelů v S-Plus lm aov glm: error, link gam lme nls nlme loess tree

Obecně použitelné funkce summary: pro lm a aov summary.aov: ANOVA table výsledků summary.lm: seznam parametrů a standardních chyb plot anova update coef fitted resid predict