Jednorozměrná lineární regrese
|
|
- Natálie Šmídová
- před 6 lety
- Počet zobrazení:
Transkript
1 Lineární regrese
2 Jednorozměrná lineární regrese předpokládá, že výstupní prom. Y lze přibližně modelovat lineární kombinací vstupů X, tj. náš odhad y spočteme jako: kde koeficienty β spočteme z trénovacích dat. Trénovací data: Reziduum příkladu je def.:
3 Výpočet koeficientů lin. reg. Hledáme které minimalizují součet čtv. residuí: Derivaci položíme rovnou nule a dostaneme: kde pruh značí průměr:
4 Lineárně regresní model: Vrstevnice RSS v závislosti na odhadech β:
5 Odhad přesnosti modelu Červená: pravda, modrá: model z černých dat, světle modré: modely z jiných vzorků dat.
6 Standardní chyba SE Standardní chyba průměru jakožto odhadu μ pro regresní model: Platí za předpokladu nekorelovaných reziduí, pro β1 menší při větším rozptylu x. jinak jen odhad v praxi se používá. Rozptyl odhadujeme standardní chyba reziduí
7 Korelovaná pozorování (rezidua) např. u časové řady zpravidla podhodnocuje odhad chyby.
8 Rezidua nerovnoměrně nelinearita
9 Intervaly věrohodnosti pravdivý koef. β1 leží na 95% cca. v intevalu (gauss. chyba, studentovo rozložení) obdobně β0 v.
10 Testování (ne)závislosti, p-value nulová hypotéza: alternativní hypotéza: t-statistika: porovnáme s tabelovaným t-rozložením pro n-2 stupně volnosti. p-value pravděpodobnost pozorování t či více při náhodné β1 =0. Typicky při p-value<5% zamítáme nulovou hypotézu.
11 Správnost modelu (na tr. datech) Standardní chyba reziduí jednotky Y R 2 mezi 0 a 1 v jednorozměrném X odpovídá korelaci F-statistika
12 Vícerozměrná lineární regrese Model: p počet vstupních proměnných minimalizací RSS dostaneme koeficienty β. jednorozměrná: Je inzerce v novinách (dle modelu) důležitá?
13 Kolinearita v extrému vede k neinvertibilitě
14 Jen info korelace proměnných pozn. 2: Velký počet sloupců nejspíš některý i náhodou korelovaný, dobrou F statistiku atd. výběr proměnných: za chvíli.
15 Kvalitativní (diskrétní) proměnné Kódujeme 0/1, vícehodnotové pro každou(-1) hodnotu zvlášť. Př. národnost
16 Různý sklon pro třídy LR nezjistí
17 Nelineární modely příliš mnoho kombinací co zkoušet, pokud víte co, určitě přidejte log, exp, součin,... budou časem (resp. všechny ostatní) splajny po částech polynomiální funkce SVM chytře ve větší mocnině polynomu (nejen) basické funkce, stromy po částech nějaké stacking - uvnitř naučené modely a další.
18 (Ne)lineání model
19 Nekonstantní rozptyl reziduí log transformace, vážené nejmenší čtverce
20 Outliers (odlehlá pozorování) Chyba v datech nebo chybějící prediktor?
21 High leverage vzdálená X leverage statistics: diagonála H=X(XTX)-1XT. Jednorozměrně:
22 Why Linear Model Regularization? Linear models are simple, BUT consider p>>n, we have more features than data records we can (often) learn model with 0 training error even for independent features! it is overfitted model. Less features in the model may lead to smaller test error. We add constrains or a penalty on coefficients. Model with fewer features is more interpretable.22
23 Selection, Regularization Methods Subset Selection Shrinkage (reguralization): evaluate all subsets and select the best model (CV) a penalty on coefficients size shrunks them towards zero Dimension Reduction: from p dimension select M-dimensional subspace, M<p. fit a linear model in this M-dim. subspace. 23
24 Best Subset Selection Null model for( k in 1:p). fit select the one with smallest RSS, or equiv. largest R2 predicts models with exactly k predictors denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 24
25 Best Subset Selection tractable up to p=30,40. Simillarly, for logistic regression with deviance as error measure instead of RSS, again, CV for model 'size' selection. 25
26 Forward Stepwise Selection Null model for( k in 0:(p-1)) predicts. consider (p-k) adding one predictor to select the one with smallest RSS, or equiv. largest R2 denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 26
27 Backward Stepwise Selection Full model for( k in (p-1):0) with p predictors (standard LR). consider (k+1) models removing one predictor from select the one with smallest RSS, or equiv. largest R2 denote it Select a single best model from among using crossvalidation, AIC, BIC or adjusted R2. 27
28 Linear Model Selection and Regularization especially usefull in high dimensions p>>100. Full evaluation or heuristic Crossvalidation and/or analytical criteria Penalization Curse of dimensionality. 28
29 PCR, PLS PCR Principal component regression select direction corresponding to largest eigenvalues for these directions, regression coeff. are fitted. For size=p equivalent with linear regression. Partial least squares considers Y for selection calculates regression coefficients weight features and calculate eigenvalues select the first direction of PLS, other direction simillar, orthogonal to the first. 29
30 Hybrid Approaches go Forward, any time try to eliminate useless predictor. Each algorithm may provide different subset for a given size k (except 0 and p ;-) None of these has to be optimal with respect to mean test error. 30
31 Choosing the Optimal Model Two main approaches: Analytical criteria, adjustment to the training error to reduce overfitting ('penalty') should not be used for p>>n! Direct estimate of test error, either validation set or cross-validation approach. 31
32 Analytical Criteria Mallow 'in sample error estimate' Akaike: (more general, proportional to Cp here) Bayesian Information Criterion: 2 Adjusted R : equiv. minimize 32
33 Example 33
34 Validation and Cross-Validation Validation: at the beginning, exclude 1/4 of data samples from training use them for error estimation for model selection. Cross-Validation: at the beginning, split data records into k=10 folds, for k in 1:10 hide k-th fold for training use it for error estimation for model selection. Note: different runs may provide different subsets of size 3. 34
35 Example 35
36 One Standard Error Rule take the model size with the minimal CV error calculate 1 std. err. interval arround this error, select the smallest model with error inside this interval. 36
37 Shrinkage Methods Penalty for non-zero model parameters, no penalty for intercept. Ridge: Lasso: 37
38 Ridge Parameter lambda penalizes the sum of β 2. intentionally excluded from the penalty. we can center features and fix: For centered featues: for orthonormal features: Dependent on scale: standardization usefull. 38
39 Ridge coef. - Cancer example 39
40 Lasso regression the penalty is it forces some coefficients to be zero an equvivalent specification: 40
41 Ridge x Lasso 41
42 Corellated X, Parameter Shrinkage 42
43 Best subset, Ridge, Lasso Coefficient change for orthonormal features: 43
44 Example p=45, n=50, 2 predictors relate to output. 44
45 Linear Models for Regression Ridge, Lasso penalization PCR, PLS coordinate system change + dimension selection 45
46 Bias-variance decomposition Bias 'systematic error', usually caused by restricted model subspace Var variance of the estimate we wish both to be zero.
47 Example of Bias
48 Example: Lasso, Ridge Regression red: MSE green: variance black: squared Bias penalty positive
49 MSE: 100 observations, p differs
50 Penalty ~ prior model probability Ridge we assume prior probability of parameters independent, ~ then Ridge is most likely estimate (posterior mode). Bayes formula P ( β / X )= P ( X / β ) P ( β ) P(X ) P(X) constant, P ( β ) prior probability, P ( β / X ) posterior probability. P ( X / β ) likelihood, 50
51 Prior Probability Ridge, Laso Ridge: Normal distribution Lasso: Laplace distribution 51
52 Principal Component Analysis PCA 52 (vlastní čísla, vlastní vektory)
Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)
Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) 1. SPECIFIKACE (12 bodů): (1) Graf průběhu proměnných (1) Obě řady se chovají stejně, lze předpokládat jejich lineární vztah
Uni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
Metoda backward výběru proměnných v lineární regresi a její vlastnosti
Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda
Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období
Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období 1971-2012 Rok SD (e ij ) SD (Y i -Y j ) DISSIM ij TRADE ij SIZE ij 1971 0,00000 0,03250 0,0000000254 0,02443 40,64456
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální
Transportation Problem
Transportation Problem ١ C H A P T E R 7 Transportation Problem The transportation problem seeks to minimize the total shipping costs of transporting goods from m origins (each with a supply s i ) to n
Odhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
Klasifikace a rozpoznávání. Extrakce příznaků
Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám
Karta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:
WORKBOOK Subject: Teacher: Student: Mathematics.... School year:../ Conic section The conic sections are the nondegenerate curves generated by the intersections of a plane with one or two nappes of a cone.
Aplikovaná statistika v R - cvičení 3
Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární
05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")
Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat
PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ. Příloha A. Metoda nejmenších čtverců Prodej bytů
PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ Příloha A Metoda nejmenších čtverců Prodej bytů i PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ 1 2 3 TOT. 1 7 33 40 2 1 18 125 144 2.5 1 72 73 3.5 1
5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 5 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
Seminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se středeční a čtvrteční seminární skupiny liší ve výsledcích v 1. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
Statistická analýza dat
Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese 1. Vliv odlehlých hodnot Na následujících dvou příkladech ukážeme jak odlehlé hodnoty (outliers) ovlivňují výsledek analýzy a jak je identifikovat.
odpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic
ROBUST 13. září 2016 regression regresních modelů Categorical Continuous - explanatory, Eva Fišerová Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University
Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.
Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena
Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.
Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci
(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.
Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Pojem závislosti Je nutné rozlišit mezi závislostí nepodstatnou a mezi příčinnou čili kauzální závislostí.ta
M cvičení : GLM04b (Vztah mezi Poissonovým a
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,
Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007
Moderní regresní metody Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Obsah Úvod... 5 1 Klasický lineární model a analýza variance... 7 Motivační příklad... 7 Fitování klasického lineárního
Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
Zpracování a vyhodnocování analytických dat
Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;
Seminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation
Aplikace matematiky Dana Lauerová A note to the theory of periodic solutions of a parabolic equation Aplikace matematiky, Vol. 25 (1980), No. 6, 457--460 Persistent URL: http://dml.cz/dmlcz/103885 Terms
Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)
Seznam příloh Příloha 1 Dotazník sportovních aktivit... 1 Příloha 2 Homogenita souboru věk... 3 Příloha 3 Homogenita souboru pohlaví... 4 Příloha 4 4Elements Inventory a sportovní aktivita... 5 Příloha
Klasická a robustní ortogonální regrese mezi složkami kompozice
Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce příznaků 3 25 2 Granáty Jablka Četnost 15 1 5 2 3 4 5 6 7 8 Váha [dkg] Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky
(n, m) (n, p) (p, m) (n, m)
48 Vícerozměrná kalibrace Podobně jako jednorozměrná kalibrace i vícerozměrná kalibrace se používá především v analytické chemii Bude vysvětlena na příkladu spektroskopie: cílem je popis závislosti mezi
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
Vztah mezi počtem květů a celkovou biomasou rostliny
Regrese a korelace Regrese versus korelace Regrese (regression)* popisuje vztah = závislost dvou a více kvantitativních (popř. ordinálních) proměnných formou funkční závislosti měří těsnost Korelace (correlation)
AVDAT Geometrie metody nejmenších čtverců
AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε
Základy lineární regrese
Základy lineární regrese David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5. 7. 8. 2015 Tato akce
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz
SCHEME OF WORK Subject: Mathematics Year: first grade, 1.X School year:../ List of topisc # Topics Time period Introduction, repetition September 1. Number sets October 2. Rigtht-angled triangle October,
Dynamic programming. Optimal binary search tree
The complexity of different algorithms varies: O(n), Ω(n ), Θ(n log (n)), Dynamic programming Optimal binary search tree Různé algoritmy mají různou složitost: O(n), Ω(n ), Θ(n log (n)), The complexity
VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ
1 ANOVA analýza rozptylu Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Kontrola 1 Konce entrace Konce entrace 3 Konce entrace p Konce entrace
Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese
- základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze - základní ukazatele Načtení vstupních dat Vstupní data
SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07
SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07 Nesezónní časová řada - Základní údaje o časové řadě Časová řada příjmy z daní z příjmu v Austrálii ( http://www.economagic.com/emcgi/data.exe/tmp/213-220-208-205!20061203093308
Optimalizace provozních podmínek. Eva Jarošová
Optimalizace provozních podmínek Eva Jarošová 1 Obsah 1. Experimenty pro optimalizaci provozních podmínek 2. EVOP klasický postup využití statistického softwaru 3. Centrální složený návrh model odezvové
8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Design Experimentu a Statistika - AGA46E
Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment
LINEÁRNÍ REGRESE. Lineární regresní model
LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)
{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků
Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a
USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING
USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING Eva Minaříková Institute for Research in School Education, Faculty of Education, Masaryk University Structure of the presentation What can we as teachers
Extrakce a selekce příznaků
Extrakce a selekce příznaků Based on slides Martina Bachlera martin.bachler@igi.tugraz.at, Makoto Miwa And paper Isabelle Guyon, André Elisseeff: An Introduction to variable and feature selection. JMLR,
Obrábění robotem se zpětnovazební tuhostí
Obrábění robotem se zpětnovazební tuhostí Odbor mechaniky a mechatroniky ČVUT v Praze, Fakulta strojní Student: Yaron Sela Vedoucí: Prof. Ing. Michael Valášek, DrSc Úvod Motivace Obráběcí stroj a důležitost
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Vícenásobná regresní a korelační analýza 1 1 Tto materiál bl vtvořen za pomoci grantu FRVŠ číslo 1145/2004. O vícenásobné závislosti mluvíme tehd, jestliže je závisle proměnná závislá na více nezávislých
II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal
Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,
VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace
VY_32_INOVACE_06_Předpřítomný čas_03 Autor: Růžena Krupičková Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace Název projektu: Zkvalitnění ICT ve slušovské škole Číslo projektu: CZ.1.07/1.4.00/21.2400
WORKSHEET 1: LINEAR EQUATION 1
WORKSHEET 1: LINEAR EQUATION 1 1. Write down the arithmetical problem according the dictation: 2. Translate the English words, you can use a dictionary: equations to solve solve inverse operation variable
AVDAT Výběr regresorů v mnohorozměrné regresi
AVDAT Výběr regresorů v mnohorozměrné regresi Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Výběr správného lineárního modelu y = Xβ + ε, ale v matici X typu n (p + 1) je
FJFJ Cvičení 1. Lukáš Frýd
FJFJ Cvičení 1 Lukáš Frýd WAGE1.RAW https://sites.google.com/site/ekonometrievse/4ek214/tyden-03 DATA log wage = β 0 + β 1 educ + β 2 exper + β 3 tenure + ε Jak vypadá výběrová regresní funkce? Interpretace
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Fisherův exaktní test
Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým
AVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
Database systems. Normal forms
Database systems Normal forms An example of a bad model SSN Surnam OfficeNo City Street No ZIP Region President_of_ Region 1001 Novák 238 Liteň Hlavní 10 26727 Středočeský Rath 1001 Novák 238 Bystřice
PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz
PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy
Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu
Příprava dat a) Kontrola dat
Příprava dat a) Kontrola dat 2 Sběr data? Příprava dat Předpoklady o datech Software obsahuje nástroje pro: Detekci chybějících dat a dat mimo stanovených rozsah Detekci odlehlých a extrémních hodnot Překodování
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
AVDAT Náhodný vektor, mnohorozměrné rozdělení
AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární
PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL
PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL Ing. Jan HAVLÍK, MPA tajemník Městského úřadu Žďár nad Sázavou Chief Executive Municipality of Žďár nad Sázavou CO
MATEMATICKÁ STATISTIKA - XP01MST
MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného
4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR
LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR Ve většině případů pracujeme s výběrovým souborem a výběrové výsledky zobecňujeme na základní soubor. Smysluplné
RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze
RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze 1 Relační algebra / Relational Algebra 2 Kino(Jmeno, Mesto,
Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat
Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M
8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA
8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA RYCHLÝ NÁHLED KAPITOLY Následující kapitolou pokračujeme v tématu analýza časových řad a blíže se budeme zabývat problematikou jich pravidelné kolísavost, která je
INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2
INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2 Name: Petr Bělohlávek School year: 2015/2016 Provide answers for the exercises 1. (a) - (c), 2.(c), 2.(d.1-2), 2.(e.1-2) For each exercise,
ANOVA analýza rozptylu
ANOVA analýza rozptlu CENTRUM BIOSTATISTIK A ANALÝZ Analýza rozptlu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Kontrola Koncentrace Koncentrace Koncentrace
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,
Prostorová variabilita
Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146
POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.
POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,
M cvičení : GLM03a (The Working Activities of Bees)
RNDr. Marie Forbelská, Ph.D. 1 M7222 3. cvičení : GLM03a (The Working Activities of Bees) Popis dat je v souboru bees.txt, samotná data jsou uložena v souboru bees.dat. Nejprve načteme popisný soubor pomocí
Litosil - application
Litosil - application The series of Litosil is primarily determined for cut polished floors. The cut polished floors are supplied by some specialized firms which are fitted with the appropriate technical
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Testy nezávislosti kardinálních veličin
Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické