Jednorozměrná lineární regrese

Rozměr: px
Začít zobrazení ze stránky:

Download "Jednorozměrná lineární regrese"

Transkript

1 Lineární regrese

2 Jednorozměrná lineární regrese předpokládá, že výstupní prom. Y lze přibližně modelovat lineární kombinací vstupů X, tj. náš odhad y spočteme jako: kde koeficienty β spočteme z trénovacích dat. Trénovací data: Reziduum příkladu je def.:

3 Výpočet koeficientů lin. reg. Hledáme které minimalizují součet čtv. residuí: Derivaci položíme rovnou nule a dostaneme: kde pruh značí průměr:

4 Lineárně regresní model: Vrstevnice RSS v závislosti na odhadech β:

5 Odhad přesnosti modelu Červená: pravda, modrá: model z černých dat, světle modré: modely z jiných vzorků dat.

6 Standardní chyba SE Standardní chyba průměru jakožto odhadu μ pro regresní model: Platí za předpokladu nekorelovaných reziduí, pro β1 menší při větším rozptylu x. jinak jen odhad v praxi se používá. Rozptyl odhadujeme standardní chyba reziduí

7 Korelovaná pozorování (rezidua) např. u časové řady zpravidla podhodnocuje odhad chyby.

8 Rezidua nerovnoměrně nelinearita

9 Intervaly věrohodnosti pravdivý koef. β1 leží na 95% cca. v intevalu (gauss. chyba, studentovo rozložení) obdobně β0 v.

10 Testování (ne)závislosti, p-value nulová hypotéza: alternativní hypotéza: t-statistika: porovnáme s tabelovaným t-rozložením pro n-2 stupně volnosti. p-value pravděpodobnost pozorování t či více při náhodné β1 =0. Typicky při p-value<5% zamítáme nulovou hypotézu.

11 Správnost modelu (na tr. datech) Standardní chyba reziduí jednotky Y R 2 mezi 0 a 1 v jednorozměrném X odpovídá korelaci F-statistika

12 Vícerozměrná lineární regrese Model: p počet vstupních proměnných minimalizací RSS dostaneme koeficienty β. jednorozměrná: Je inzerce v novinách (dle modelu) důležitá?

13 Kolinearita v extrému vede k neinvertibilitě

14 Jen info korelace proměnných pozn. 2: Velký počet sloupců nejspíš některý i náhodou korelovaný, dobrou F statistiku atd. výběr proměnných: za chvíli.

15 Kvalitativní (diskrétní) proměnné Kódujeme 0/1, vícehodnotové pro každou(-1) hodnotu zvlášť. Př. národnost

16 Různý sklon pro třídy LR nezjistí

17 Nelineární modely příliš mnoho kombinací co zkoušet, pokud víte co, určitě přidejte log, exp, součin,... budou časem (resp. všechny ostatní) splajny po částech polynomiální funkce SVM chytře ve větší mocnině polynomu (nejen) basické funkce, stromy po částech nějaké stacking - uvnitř naučené modely a další.

18 (Ne)lineání model

19 Nekonstantní rozptyl reziduí log transformace, vážené nejmenší čtverce

20 Outliers (odlehlá pozorování) Chyba v datech nebo chybějící prediktor?

21 High leverage vzdálená X leverage statistics: diagonála H=X(XTX)-1XT. Jednorozměrně:

22 Why Linear Model Regularization? Linear models are simple, BUT consider p>>n, we have more features than data records we can (often) learn model with 0 training error even for independent features! it is overfitted model. Less features in the model may lead to smaller test error. We add constrains or a penalty on coefficients. Model with fewer features is more interpretable.22

23 Selection, Regularization Methods Subset Selection Shrinkage (reguralization): evaluate all subsets and select the best model (CV) a penalty on coefficients size shrunks them towards zero Dimension Reduction: from p dimension select M-dimensional subspace, M<p. fit a linear model in this M-dim. subspace. 23

24 Best Subset Selection Null model for( k in 1:p). fit select the one with smallest RSS, or equiv. largest R2 predicts models with exactly k predictors denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 24

25 Best Subset Selection tractable up to p=30,40. Simillarly, for logistic regression with deviance as error measure instead of RSS, again, CV for model 'size' selection. 25

26 Forward Stepwise Selection Null model for( k in 0:(p-1)) predicts. consider (p-k) adding one predictor to select the one with smallest RSS, or equiv. largest R2 denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 26

27 Backward Stepwise Selection Full model for( k in (p-1):0) with p predictors (standard LR). consider (k+1) models removing one predictor from select the one with smallest RSS, or equiv. largest R2 denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 27

28 Linear Model Selection and Regularization especially usefull in high dimensions p>>100. Full evaluation or heuristic Crossvalidation and/or analytical criteria Penalization Curse of dimensionality. 28

29 PCR, PLS PCR Principal component regression select direction corresponding to largest eigenvalues for these directions, regression coeff. are fitted. For size=p equivalent with linear regression. Partial least squares considers Y for selection calculates regression coefficients weight features and calculate eigenvalues select the first direction of PLS, other direction simillar, orthogonal to the first. 29

30 Hybrid Approaches go Forward, any time try to eliminate useless predictor. Each algorithm may provide different subset for a given size k (except 0 and p ;-) None of these has to be optimal with respect to mean test error. 30

31 Choosing the Optimal Model Two main approaches: Analytical criteria, adjustment to the training error to reduce overfitting ('penalty') should not be used for p>>n! Direct estimate of test error, either validation set or cross-validation approach. 31

32 Analytical Criteria Mallow 'in sample error estimate' Akaike: (more general, proportional to Cp here) Bayesian Information Criterion: 2 Adjusted R : equiv. minimize 32

33 Example 33

34 Validation and Cross-Validation Validation: at the beginning, exclude 1/4 of data samples from training use them for error estimation for model selection. Cross-Validation: at the beginning, split data records into k=10 folds, for k in 1:10 hide k-th fold for training use it for error estimation for model selection. Note: different runs may provide different subsets of size 3. 34

35 Example 35

36 One Standard Error Rule take the model size with the minimal CV error calculate 1 std. err. interval arround this error, select the smallest model with error inside this interval. 36

37 Shrinkage Methods Penalty for non-zero model parameters, no penalty for intercept. Ridge: Lasso: 37

38 Ridge Parameter lambda penalizes the sum of β 2. intentionally excluded from the penalty. we can center features and fix: For centered featues: for orthonormal features: Dependent on scale: standardization usefull. 38

39 Ridge coef. - Cancer example 39

40 Lasso regression the penalty is it forces some coefficients to be zero an equvivalent specification: 40

41 Ridge x Lasso 41

42 Corellated X, Parameter Shrinkage 42

43 Best subset, Ridge, Lasso Coefficient change for orthonormal features: 43

44 Example p=45, n=50, 2 predictors relate to output. 44

45 Linear Models for Regression Ridge, Lasso penalization PCR, PLS coordinate system change + dimension selection 45

46 Bias-variance decomposition Bias 'systematic error', usually caused by restricted model subspace Var variance of the estimate we wish both to be zero.

47 Example of Bias

48 Example: Lasso, Ridge Regression red: MSE green: variance black: squared Bias penalty positive

49 MSE: 100 observations, p differs

50 Penalty ~ prior model probability Ridge we assume prior probability of parameters independent, ~ then Ridge is most likely estimate (posterior mode). Bayes formula P ( β / X )= P ( X / β ) P ( β ) P(X ) P(X) constant, P ( β ) prior probability, P ( β / X ) posterior probability. P ( X / β ) likelihood, 50

51 Prior Probability Ridge, Laso Ridge: Normal distribution Lasso: Laplace distribution 51

52 Principal Component Analysis PCA 52 (vlastní čísla, vlastní vektory)

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb

Více

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) 1. SPECIFIKACE (12 bodů): (1) Graf průběhu proměnných (1) Obě řady se chovají stejně, lze předpokládat jejich lineární vztah

Více

Uni- and multi-dimensional parametric tests for comparison of sample results

Uni- and multi-dimensional parametric tests for comparison of sample results Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období

Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období 1971-2012 Rok SD (e ij ) SD (Y i -Y j ) DISSIM ij TRADE ij SIZE ij 1971 0,00000 0,03250 0,0000000254 0,02443 40,64456

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální

Více

Transportation Problem

Transportation Problem Transportation Problem ١ C H A P T E R 7 Transportation Problem The transportation problem seeks to minimize the total shipping costs of transporting goods from m origins (each with a supply s i ) to n

Více

Odhady Parametrů Lineární Regrese

Odhady Parametrů Lineární Regrese Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké

Více

Klasifikace a rozpoznávání. Extrakce příznaků

Klasifikace a rozpoznávání. Extrakce příznaků Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám

Více

Karta předmětu prezenční studium

Karta předmětu prezenční studium Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.

Více

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK.   Mathematics. Teacher: Student: WORKBOOK Subject: Teacher: Student: Mathematics.... School year:../ Conic section The conic sections are the nondegenerate curves generated by the intersections of a plane with one or two nappes of a cone.

Více

Aplikovaná statistika v R - cvičení 3

Aplikovaná statistika v R - cvičení 3 Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární

Více

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

05/29/08 cvic5.r. cv5.dat <- read.csv(cvic5.csv) Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat

Více

PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ. Příloha A. Metoda nejmenších čtverců Prodej bytů

PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ. Příloha A. Metoda nejmenších čtverců Prodej bytů PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ Příloha A Metoda nejmenších čtverců Prodej bytů i PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ 1 2 3 TOT. 1 7 33 40 2 1 18 125 144 2.5 1 72 73 3.5 1

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 5 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

Seminář 6 statistické testy

Seminář 6 statistické testy Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se středeční a čtvrteční seminární skupiny liší ve výsledcích v 1. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná

Více

Statistická analýza dat

Statistická analýza dat Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní

Více

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese 1. Vliv odlehlých hodnot Na následujících dvou příkladech ukážeme jak odlehlé hodnoty (outliers) ovlivňují výsledek analýzy a jak je identifikovat.

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic ROBUST 13. září 2016 regression regresních modelů Categorical Continuous - explanatory, Eva Fišerová Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University

Více

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Pokud data zadáme přes Commands okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18. Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena

Více

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci. Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci

Více

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Pojem závislosti Je nutné rozlišit mezi závislostí nepodstatnou a mezi příčinnou čili kauzální závislostí.ta

Více

M cvičení : GLM04b (Vztah mezi Poissonovým a

M cvičení : GLM04b (Vztah mezi Poissonovým a RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,

Více

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Moderní regresní metody Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Obsah Úvod... 5 1 Klasický lineární model a analýza variance... 7 Motivační příklad... 7 Fitování klasického lineárního

Více

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Zadání Máme data hdp.wf1, která najdete zde:  Bodová předpověď: Intervalová předpověď: Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst

Více

Zpracování a vyhodnocování analytických dat

Zpracování a vyhodnocování analytických dat Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;

Více

Seminář 6 statistické testy

Seminář 6 statistické testy Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation Aplikace matematiky Dana Lauerová A note to the theory of periodic solutions of a parabolic equation Aplikace matematiky, Vol. 25 (1980), No. 6, 457--460 Persistent URL: http://dml.cz/dmlcz/103885 Terms

Více

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně) Seznam příloh Příloha 1 Dotazník sportovních aktivit... 1 Příloha 2 Homogenita souboru věk... 3 Příloha 3 Homogenita souboru pohlaví... 4 Příloha 4 4Elements Inventory a sportovní aktivita... 5 Příloha

Více

Klasická a robustní ortogonální regrese mezi složkami kompozice

Klasická a robustní ortogonální regrese mezi složkami kompozice Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x

Více

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce příznaků 3 25 2 Granáty Jablka Četnost 15 1 5 2 3 4 5 6 7 8 Váha [dkg] Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky

Více

(n, m) (n, p) (p, m) (n, m)

(n, m) (n, p) (p, m) (n, m) 48 Vícerozměrná kalibrace Podobně jako jednorozměrná kalibrace i vícerozměrná kalibrace se používá především v analytické chemii Bude vysvětlena na příkladu spektroskopie: cílem je popis závislosti mezi

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1

Více

Vztah mezi počtem květů a celkovou biomasou rostliny

Vztah mezi počtem květů a celkovou biomasou rostliny Regrese a korelace Regrese versus korelace Regrese (regression)* popisuje vztah = závislost dvou a více kvantitativních (popř. ordinálních) proměnných formou funkční závislosti měří těsnost Korelace (correlation)

Více

AVDAT Geometrie metody nejmenších čtverců

AVDAT Geometrie metody nejmenších čtverců AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε

Více

Základy lineární regrese

Základy lineární regrese Základy lineární regrese David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5. 7. 8. 2015 Tato akce

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK.  cz SCHEME OF WORK Subject: Mathematics Year: first grade, 1.X School year:../ List of topisc # Topics Time period Introduction, repetition September 1. Number sets October 2. Rigtht-angled triangle October,

Více

Dynamic programming. Optimal binary search tree

Dynamic programming. Optimal binary search tree The complexity of different algorithms varies: O(n), Ω(n ), Θ(n log (n)), Dynamic programming Optimal binary search tree Různé algoritmy mají různou složitost: O(n), Ω(n ), Θ(n log (n)), The complexity

Více

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ 1 ANOVA analýza rozptylu Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Kontrola 1 Konce entrace Konce entrace 3 Konce entrace p Konce entrace

Více

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese - základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze - základní ukazatele Načtení vstupních dat Vstupní data

Více

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07 SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07 Nesezónní časová řada - Základní údaje o časové řadě Časová řada příjmy z daní z příjmu v Austrálii ( http://www.economagic.com/emcgi/data.exe/tmp/213-220-208-205!20061203093308

Více

Optimalizace provozních podmínek. Eva Jarošová

Optimalizace provozních podmínek. Eva Jarošová Optimalizace provozních podmínek Eva Jarošová 1 Obsah 1. Experimenty pro optimalizaci provozních podmínek 2. EVOP klasický postup využití statistického softwaru 3. Centrální složený návrh model odezvové

Více

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Design Experimentu a Statistika - AGA46E

Design Experimentu a Statistika - AGA46E Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING Eva Minaříková Institute for Research in School Education, Faculty of Education, Masaryk University Structure of the presentation What can we as teachers

Více

Extrakce a selekce příznaků

Extrakce a selekce příznaků Extrakce a selekce příznaků Based on slides Martina Bachlera martin.bachler@igi.tugraz.at, Makoto Miwa And paper Isabelle Guyon, André Elisseeff: An Introduction to variable and feature selection. JMLR,

Více

Obrábění robotem se zpětnovazební tuhostí

Obrábění robotem se zpětnovazební tuhostí Obrábění robotem se zpětnovazební tuhostí Odbor mechaniky a mechatroniky ČVUT v Praze, Fakulta strojní Student: Yaron Sela Vedoucí: Prof. Ing. Michael Valášek, DrSc Úvod Motivace Obráběcí stroj a důležitost

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Vícenásobná regresní a korelační analýza 1 1 Tto materiál bl vtvořen za pomoci grantu FRVŠ číslo 1145/2004. O vícenásobné závislosti mluvíme tehd, jestliže je závisle proměnná závislá na více nezávislých

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace VY_32_INOVACE_06_Předpřítomný čas_03 Autor: Růžena Krupičková Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace Název projektu: Zkvalitnění ICT ve slušovské škole Číslo projektu: CZ.1.07/1.4.00/21.2400

Více

WORKSHEET 1: LINEAR EQUATION 1

WORKSHEET 1: LINEAR EQUATION 1 WORKSHEET 1: LINEAR EQUATION 1 1. Write down the arithmetical problem according the dictation: 2. Translate the English words, you can use a dictionary: equations to solve solve inverse operation variable

Více

AVDAT Výběr regresorů v mnohorozměrné regresi

AVDAT Výběr regresorů v mnohorozměrné regresi AVDAT Výběr regresorů v mnohorozměrné regresi Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Výběr správného lineárního modelu y = Xβ + ε, ale v matici X typu n (p + 1) je

Více

FJFJ Cvičení 1. Lukáš Frýd

FJFJ Cvičení 1. Lukáš Frýd FJFJ Cvičení 1 Lukáš Frýd WAGE1.RAW https://sites.google.com/site/ekonometrievse/4ek214/tyden-03 DATA log wage = β 0 + β 1 educ + β 2 exper + β 3 tenure + ε Jak vypadá výběrová regresní funkce? Interpretace

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Fisherův exaktní test

Fisherův exaktní test Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým

Více

AVDAT Nelineární regresní model

AVDAT Nelineární regresní model AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných

Více

Database systems. Normal forms

Database systems. Normal forms Database systems Normal forms An example of a bad model SSN Surnam OfficeNo City Street No ZIP Region President_of_ Region 1001 Novák 238 Liteň Hlavní 10 26727 Středočeský Rath 1001 Novák 238 Bystřice

Více

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu

Více

Příprava dat a) Kontrola dat

Příprava dat a) Kontrola dat Příprava dat a) Kontrola dat 2 Sběr data? Příprava dat Předpoklady o datech Software obsahuje nástroje pro: Detekci chybějících dat a dat mimo stanovených rozsah Detekci odlehlých a extrémních hodnot Překodování

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Náhodný vektor, mnohorozměrné rozdělení AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární

Více

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL Ing. Jan HAVLÍK, MPA tajemník Městského úřadu Žďár nad Sázavou Chief Executive Municipality of Žďár nad Sázavou CO

Více

MATEMATICKÁ STATISTIKA - XP01MST

MATEMATICKÁ STATISTIKA - XP01MST MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného

Více

4ST201 STATISTIKA CVIČENÍ Č. 10

4ST201 STATISTIKA CVIČENÍ Č. 10 4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte

Více

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR Ve většině případů pracujeme s výběrovým souborem a výběrové výsledky zobecňujeme na základní soubor. Smysluplné

Více

RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze

RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze 1 Relační algebra / Relational Algebra 2 Kino(Jmeno, Mesto,

Více

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M

Více

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA 8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA RYCHLÝ NÁHLED KAPITOLY Následující kapitolou pokračujeme v tématu analýza časových řad a blíže se budeme zabývat problematikou jich pravidelné kolísavost, která je

Více

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2 INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2 Name: Petr Bělohlávek School year: 2015/2016 Provide answers for the exercises 1. (a) - (c), 2.(c), 2.(d.1-2), 2.(e.1-2) For each exercise,

Více

ANOVA analýza rozptylu

ANOVA analýza rozptylu ANOVA analýza rozptlu CENTRUM BIOSTATISTIK A ANALÝZ Analýza rozptlu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Kontrola Koncentrace Koncentrace Koncentrace

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,

Více

Prostorová variabilita

Prostorová variabilita Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální

Více

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146

Více

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,

Více

M cvičení : GLM03a (The Working Activities of Bees)

M cvičení : GLM03a (The Working Activities of Bees) RNDr. Marie Forbelská, Ph.D. 1 M7222 3. cvičení : GLM03a (The Working Activities of Bees) Popis dat je v souboru bees.txt, samotná data jsou uložena v souboru bees.dat. Nejprve načteme popisný soubor pomocí

Více

Litosil - application

Litosil - application Litosil - application The series of Litosil is primarily determined for cut polished floors. The cut polished floors are supplied by some specialized firms which are fitted with the appropriate technical

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Testy nezávislosti kardinálních veličin

Testy nezávislosti kardinálních veličin Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více