Jednorozměrná lineární regrese

Podobné dokumenty
Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

AVDAT Klasický lineární model, metoda nejmenších

4EK211 Základy ekonometrie

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Uni- and multi-dimensional parametric tests for comparison of sample results

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Transportation Problem

Odhady Parametrů Lineární Regrese

Klasifikace a rozpoznávání. Extrakce příznaků

Karta předmětu prezenční studium

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Aplikovaná statistika v R - cvičení 3

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ. Příloha A. Metoda nejmenších čtverců Prodej bytů

5EN306 Aplikované kvantitativní metody I

Seminář 6 statistické testy

Statistická analýza dat

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

odpovídá jedna a jen jedna hodnota jiných

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

M cvičení : GLM04b (Vztah mezi Poissonovým a

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Zpracování a vyhodnocování analytických dat

Seminář 6 statistické testy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Klasická a robustní ortogonální regrese mezi složkami kompozice

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

(n, m) (n, p) (p, m) (n, m)

4EK211 Základy ekonometrie

Vztah mezi počtem květů a celkovou biomasou rostliny

AVDAT Geometrie metody nejmenších čtverců

Základy lineární regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza. Eva Jarošová

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Dynamic programming. Optimal binary search tree

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

Optimalizace provozních podmínek. Eva Jarošová

8 Coxův model proporcionálních rizik I

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Design Experimentu a Statistika - AGA46E

LINEÁRNÍ REGRESE. Lineární regresní model

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Extrakce a selekce příznaků

Obrábění robotem se zpětnovazební tuhostí

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

WORKSHEET 1: LINEAR EQUATION 1

AVDAT Výběr regresorů v mnohorozměrné regresi

FJFJ Cvičení 1. Lukáš Frýd

Strojové učení Marta Vomlelová

Fisherův exaktní test

AVDAT Nelineární regresní model

Database systems. Normal forms

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Příprava dat a) Kontrola dat

Regresní a korelační analýza

6. Lineární regresní modely

AVDAT Náhodný vektor, mnohorozměrné rozdělení

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL

MATEMATICKÁ STATISTIKA - XP01MST

4ST201 STATISTIKA CVIČENÍ Č. 10

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

4EK211 Základy ekonometrie

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

ANOVA analýza rozptylu

Tomáš Karel LS 2012/2013

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Prostorová variabilita

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

M cvičení : GLM03a (The Working Activities of Bees)

Litosil - application

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy nezávislosti kardinálních veličin

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Transkript:

Lineární regrese

Jednorozměrná lineární regrese předpokládá, že výstupní prom. Y lze přibližně modelovat lineární kombinací vstupů X, tj. náš odhad y spočteme jako: kde koeficienty β spočteme z trénovacích dat. Trénovací data: Reziduum příkladu je def.:

Výpočet koeficientů lin. reg. Hledáme které minimalizují součet čtv. residuí: Derivaci položíme rovnou nule a dostaneme: kde pruh značí průměr:

Lineárně regresní model: Vrstevnice RSS v závislosti na odhadech β:

Odhad přesnosti modelu Červená: pravda, modrá: model z černých dat, světle modré: modely z jiných vzorků dat.

Standardní chyba SE Standardní chyba průměru jakožto odhadu μ pro regresní model: Platí za předpokladu nekorelovaných reziduí, pro β1 menší při větším rozptylu x. jinak jen odhad v praxi se používá. Rozptyl odhadujeme standardní chyba reziduí

Korelovaná pozorování (rezidua) např. u časové řady zpravidla podhodnocuje odhad chyby.

Rezidua nerovnoměrně nelinearita

Intervaly věrohodnosti pravdivý koef. β1 leží na 95% cca. v intevalu (gauss. chyba, studentovo rozložení) obdobně β0 v.

Testování (ne)závislosti, p-value nulová hypotéza: alternativní hypotéza: t-statistika: porovnáme s tabelovaným t-rozložením pro n-2 stupně volnosti. p-value pravděpodobnost pozorování t či více při náhodné β1 =0. Typicky při p-value<5% zamítáme nulovou hypotézu.

Správnost modelu (na tr. datech) Standardní chyba reziduí jednotky Y R 2 mezi 0 a 1 v jednorozměrném X odpovídá korelaci F-statistika

Vícerozměrná lineární regrese Model: p počet vstupních proměnných minimalizací RSS dostaneme koeficienty β. jednorozměrná: Je inzerce v novinách (dle modelu) důležitá?

Kolinearita v extrému vede k neinvertibilitě

Jen info korelace proměnných pozn. 2: Velký počet sloupců nejspíš některý i náhodou korelovaný, dobrou F statistiku atd. výběr proměnných: za chvíli.

Kvalitativní (diskrétní) proměnné Kódujeme 0/1, vícehodnotové pro každou(-1) hodnotu zvlášť. Př. národnost

Různý sklon pro třídy LR nezjistí

Nelineární modely příliš mnoho kombinací co zkoušet, pokud víte co, určitě přidejte log, exp, součin,... budou časem (resp. všechny ostatní) splajny po částech polynomiální funkce SVM chytře ve větší mocnině polynomu (nejen) basické funkce, stromy po částech nějaké stacking - uvnitř naučené modely a další.

(Ne)lineání model

Nekonstantní rozptyl reziduí log transformace, vážené nejmenší čtverce

Outliers (odlehlá pozorování) Chyba v datech nebo chybějící prediktor?

High leverage vzdálená X leverage statistics: diagonála H=X(XTX)-1XT. Jednorozměrně:

Why Linear Model Regularization? Linear models are simple, BUT consider p>>n, we have more features than data records we can (often) learn model with 0 training error even for independent features! it is overfitted model. Less features in the model may lead to smaller test error. We add constrains or a penalty on coefficients. Model with fewer features is more interpretable.22

Selection, Regularization Methods Subset Selection Shrinkage (reguralization): evaluate all subsets and select the best model (CV) a penalty on coefficients size shrunks them towards zero Dimension Reduction: from p dimension select M-dimensional subspace, M<p. fit a linear model in this M-dim. subspace. 23

Best Subset Selection Null model for( k in 1:p). fit select the one with smallest RSS, or equiv. largest R2 predicts models with exactly k predictors denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 24

Best Subset Selection tractable up to p=30,40. Simillarly, for logistic regression with deviance as error measure instead of RSS, again, CV for model 'size' selection. 25

Forward Stepwise Selection Null model for( k in 0:(p-1)) predicts. consider (p-k) adding one predictor to select the one with smallest RSS, or equiv. largest R2 denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 26

Backward Stepwise Selection Full model for( k in (p-1):0) with p predictors (standard LR). consider (k+1) models removing one predictor from select the one with smallest RSS, or equiv. largest R2 denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 27

Linear Model Selection and Regularization especially usefull in high dimensions p>>100. Full evaluation or heuristic Crossvalidation and/or analytical criteria Penalization Curse of dimensionality. 28

PCR, PLS PCR Principal component regression select direction corresponding to largest eigenvalues for these directions, regression coeff. are fitted. For size=p equivalent with linear regression. Partial least squares considers Y for selection calculates regression coefficients weight features and calculate eigenvalues select the first direction of PLS, other direction simillar, orthogonal to the first. 29

Hybrid Approaches go Forward, any time try to eliminate useless predictor. Each algorithm may provide different subset for a given size k (except 0 and p ;-) None of these has to be optimal with respect to mean test error. 30

Choosing the Optimal Model Two main approaches: Analytical criteria, adjustment to the training error to reduce overfitting ('penalty') should not be used for p>>n! Direct estimate of test error, either validation set or cross-validation approach. 31

Analytical Criteria Mallow 'in sample error estimate' Akaike: (more general, proportional to Cp here) Bayesian Information Criterion: 2 Adjusted R : equiv. minimize 32

Example 33

Validation and Cross-Validation Validation: at the beginning, exclude 1/4 of data samples from training use them for error estimation for model selection. Cross-Validation: at the beginning, split data records into k=10 folds, for k in 1:10 hide k-th fold for training use it for error estimation for model selection. Note: different runs may provide different subsets of size 3. 34

Example 35

One Standard Error Rule take the model size with the minimal CV error calculate 1 std. err. interval arround this error, select the smallest model with error inside this interval. 36

Shrinkage Methods Penalty for non-zero model parameters, no penalty for intercept. Ridge: Lasso: 37

Ridge Parameter lambda penalizes the sum of β 2. intentionally excluded from the penalty. we can center features and fix: For centered featues: for orthonormal features: Dependent on scale: standardization usefull. 38

Ridge coef. - Cancer example 39

Lasso regression the penalty is it forces some coefficients to be zero an equvivalent specification: 40

Ridge x Lasso 41

Corellated X, Parameter Shrinkage 42

Best subset, Ridge, Lasso Coefficient change for orthonormal features: 43

Example p=45, n=50, 2 predictors relate to output. 44

Linear Models for Regression Ridge, Lasso penalization PCR, PLS coordinate system change + dimension selection 45

Bias-variance decomposition Bias 'systematic error', usually caused by restricted model subspace Var variance of the estimate we wish both to be zero.

Example of Bias

Example: Lasso, Ridge Regression red: MSE green: variance black: squared Bias penalty positive

MSE: 100 observations, p differs

Penalty ~ prior model probability Ridge we assume prior probability of parameters independent, ~ then Ridge is most likely estimate (posterior mode). Bayes formula P ( β / X )= P ( X / β ) P ( β ) P(X ) P(X) constant, P ( β ) prior probability, P ( β / X ) posterior probability. P ( X / β ) likelihood, 50

Prior Probability Ridge, Laso Ridge: Normal distribution Lasso: Laplace distribution 51

Principal Component Analysis PCA 52 (vlastní čísla, vlastní vektory)