Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

Podobné dokumenty
Transportation Problem

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

WORKSHEET 1: LINEAR EQUATION 1

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Klasická a robustní ortogonální regrese mezi složkami kompozice

Compression of a Dictionary

Probability density estimation Parametric methods

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Karta předmětu prezenční studium

Základy teorie front III

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Uni- and multi-dimensional parametric tests for comparison of sample results

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Introduction to MS Dynamics NAV

On large rigid sets of monounary algebras. D. Jakubíková-Studenovská P. J. Šafárik University, Košice, Slovakia

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

EXACT DS OFFICE. The best lens for office work

Design Experimentu a Statistika - AGA46E

CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA

DC circuits with a single source

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Dynamic Signals. Ananda V. Mysore SJSU

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

The Over-Head Cam (OHC) Valve Train Computer Model

6.867 Machine Learning

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Jak importovat profily do Cura (Windows a

PRAVIDLA ZPRACOVÁNÍ STANDARDNÍCH ELEKTRONICKÝCH ZAHRANIČNÍCH PLATEBNÍCH PŘÍKAZŮ STANDARD ELECTRONIC FOREIGN PAYMENT ORDERS PROCESSING RULES

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

Čtvrtý Pentagram The fourth Pentagram

Angličtina v matematických softwarech 2 Vypracovala: Mgr. Bronislava Kreuzingerová

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Odhad sm si s datov závislým dynamickým ukazovátkem a statickými komponentami 1

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Goal: to construct some general-purpose algorithms for solving systems of linear Equations

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Vánoční sety Christmas sets

Dynamic programming. Optimal binary search tree

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Použití modelu Value at Risk u akcií z

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

PC/104, PC/104-Plus. 196 ept GmbH I Tel. +49 (0) / I Fax +49 (0) / I I

A constitutive model for non-reacting binary mixtures

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

The Czech education system, school

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

ESTIMATING HIGH LEVELS EXCEEDANCE PROBABILITIES BY POINT PROCESS APPROACH WITH APPLICATIONS TO NORTHERN MORAVIA PRECIPITATION AND DISCHARGES SERIES

3. LF UK, MEDIWARE a.s. - Ing. Jiří Potůček,prof.MUDr.M.Krsiak,DrSc., Ing. Jiří Douša

Extrakce nezávislé komponenty

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Perception Motivated Hybrid Approach to Tone Mapping

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

2. Entity, Architecture, Process

AVDAT Klasický lineární model, metoda nejmenších

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

TEPELNÁ ZÁTĚŽ, TEPLOTNÍ REKORDY A SDĚLOVACÍ PROSTŘEDKY

Configuration vs. Conformation. Configuration: Covalent bonds must be broken. Two kinds of isomers to consider

Optimalizace provozních podmínek. Eva Jarošová

GENERAL INFORMATION RUČNÍ POHON MANUAL DRIVE MECHANISM

Ja n T. Št e f a n. Klíčová slova: Řada knih, srovnání cen v čase, cena vazby a ocelorytové viněty, lineární regresní analýza.

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Geometry of image formation

Kreditní rating a jeho modelování pomocí markovských procesů. Dana Němcová

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

technický list TRANSIL TM 1.5KE6V8A/440A 1.5KE6V8CA/440CA str 1

AVDAT Mnohorozměrné metody, metody klasifikace

Jednorozměrná lineární regrese

LWS při heteroskedasticitě

Modelování heterogenity ročních příjmů českých domácností Modeling Heterogeinity in the Czech Household Incomes

Search and state transfer by means of quantum walk. Vyhledávání a přenos stavu pomocí kvantové procházky

Seznam změn v manuálu

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Strojové učení Marta Vomlelová

4 TABULKY ZÁKLADNÍCH STATISTICKÝCH CHARAKTE- RISTIK TÌLESNÝCH ROZMÌRÙ TABLES OF BASIC STATISTICAL CHARACTERISTICS OF BODY PARAMETERS

Energy vstupuje na trh veterinárních produktů Energy enters the market of veterinary products

5.VY_32_INOVACE_AJ_UMB5, Vztažné věty.notebook. September 09, 2013

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Image Analysis and MATLAB. Jiří Militky

Řízení rychlosti vozu Formule 1 pomocí rozhodovacího diagramu

READERS OF MAGAZÍN DNES + TV

Klasifikační metody pro genetická data: regularizace a robustnost

READERS OF MAGAZÍN DNES + TV

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

MATEMATIKA MEZI... ANEB NĚCO MÁLO O DISKRIMINACI

SEMI-PRODUCTS. 2. The basic classification of semi-products is: standardized semi-products non-standardized semi-products

Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období

DATA SHEET. BC516 PNP Darlington transistor. technický list DISCRETE SEMICONDUCTORS Apr 23. Product specification Supersedes data of 1997 Apr 16

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

READERS OF MAGAZÍN DNES + TV

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

PROČ UŽ SE NEOBEJDETE BEZ ANALÝZY DAT

MEDIA RESEARCH RATINGS

Transkript:

ROBUST 13. září 2016 regression regresních modelů Categorical Continuous - explanatory, Eva Fišerová Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic kristyna.vankatova@upol.cz

regression Standard linear regression model y j = x T j β + ε j The mixture of linear regression can be written as y j = x T j β 1 + ε 1j with probability π 1 x T j β 2 + ε 2j with probability π 2 x T j β c + ε cj. with probability π c where ε ij N(0, σ 2 i ) Accounting for the mixture structure, the conditional density of y j x j is f (y j x j, Ψ) = c π i φ(y j x T j β i, σi 2 ). i=1 Ψ denotes the vector of all parameters regression Categorical Continuous - explanatory Ψ = (π 1,..., π c, (β T 1, σ2 1 ),..., (βt c, σ2 c ))T.

Maximizing the log likelihood function log L(Ψ x 1,..., x n, y 1,..., y n) = n ( c ) log π i φ(y j x T j β i, σi 2 ). The EM algorithm is an iterative procedure which alternates between an Expectation step and a Maximization step. (k + 1)th iteration of EM algorithm: 1. E-step: Given the observed data y and current parameter estimates Ψ (k) in the kth iteration, calculates estimated a-posteriori probabilities, assigning each observation j to each cluster i. τ (k) ij = 2. M-step: Given the estimates τ (k) ij j=1 π (k) φ(y i j x T j c h=1 π(k) h φ(y j x T j i=1 β (k) i, σ 2(k) ) i β (k) h, σ2(k) ) h for the a-posteriori probabilities τ ij (which are functions of Ψ (k) ), obtain new estimates Ψ (k+1) of the parameters by maximizing expected complete log likelihood, which is in general easier to maximize than the original likelihood.. regression Categorical Continuous - explanatory Q(Ψ, Ψ (k) ) = n c j=1 i=1 τ (k) ij log φ(y j x T j β i, σ 2 i )

The maximization is equivalent to solving the weighted least squares problem: β (k+1) i = (X T W (k) X) 1 X T W (k) i i y for i = 1,..., c, where y = (y 1,..., y n) T is the vector of observations and X = (x 1,..., x n) T 1/2 (k) is the design matrix, both are weighted by τ. ij In order to estimate σ 2 i and π i we use (k+1) σ 2 (k+1) (y X β i ) T W = i (y X β (k+1) i ), for i = 1,..., c, n regression Categorical Continuous - explanatory and n π (k+1) j=1 = τ (k) ij i n for i = 1,..., c.

with We consider mixture of of form f (y j x j, ω j ) = c π i (ω j, α i )φ(y j x T j β i, σi 2 ), i=1 Multinomial logit model for the π i is given by π i (ω j, α i ) = exp ωt j α i for i = 1,..., c, c α h=1 expωt j h regression Categorical Continuous - explanatory with α = (α 1,..., α c) and α 1 0. The vector of all parameters is given by Ψ = ((α T 1, βt 1, σ2 1 ),..., (αt c, βt c, σ2 c ))T.

Parameters estimated via EM algorithm. M-step: maximization of expected complete log likelihood where and Q(Ψ, Ψ (k) ) = Q 1 (β i, σ 2 i, i = 1,..., c ; Ψ (k) ) + Q 2 (α, Ψ (k) ), Q 1 (β i, σ 2 i, i = 1,..., c ; Ψ (k) ) = Q 2 (α, Ψ (k) ) = n c j=1 i=1 n c j=1 i=1 τ (k) ij τ (k) ij log ( π i (ω j, α i ) ). ( ) log φ(y j x T j β i, σi 2 ) Formulas Q 1 and Q 2 can be maximized separately. The maximization of (k+1) Q 1 gives new estimates β i, σ 2(k+1), i = 1,..., c, and the i maximization of Q 2 gives α (k+1). Q 1 is maximized using the weighted ML estimation of linear and Q 2 by means of the weighted ML estimation of multinomial logit. regression Categorical Continuous - explanatory

Categorical regression The data comes from two component mixture of the following structure: 150 obs. : y = 5 10 x + ε; ε N(0, 15) 150 obs. : y = 10 2 x + ε; ε N(0, 15) Categorical assigns value 1 and 2 to observations from the first component (with accuracy of 90%) and value 3 and 4 to observations from the second component (with accuracy of 90%) Categorical Continuous - explanatory

Comparison of true data classification (top left), classification via ordinary mixture of regressions (bottom) and classification via mixture of (top right). y 100 50 0 50 100 20 15 10 5 0 5 10 15 20 15 10 5 0 5 10 15 x x y 100 50 0 50 100 y 100 50 0 50 100 20 15 10 5 0 5 10 15 x regression Categorical Continuous - explanatory

Continuous The data comes from three component mixture of the following structure: 50 obs. : y = 150 1.2 x + ε; ε N(0, 10) 80 obs. : y = 40 4 x + ε; ε N(0, 40) 30 obs. : y = 40 1 x + ε; ε N(0, 10) Explanatory can be used as for better estimates of observations membership. regression Categorical Continuous - explanatory

Comparison of true data classification (top left), classification via ordinary mixture of regressions (bottom left & bottom right) and classification via mixture of (top right). y 200 100 0 100 200 y 200 100 0 100 200 50 0 50 100 x 50 0 50 100 x y 200 100 0 100 200 y 300 200 100 0 100 200 50 0 50 100 x 50 0 50 100 x regression Categorical Continuous - explanatory

The MSE and variance of the regression parameters and standard error estimates for both mixture : MSEPAR( ψ m) β 10 β 11 β 20 β 21 β 10 β 11 β 20 β 21 β 30 β 31 klasická směs 2.098 0.095 2.189 0.023 5.508 0.006 55.368 0.069 149.421 0.028 směs s dopr. prom. 1.763 0.057 1.809 0.017 5.017 0.006 30.709 0.059 61.040 0.011 VAR( ψ m) β 10 β 11 β 20 β 21 β 10 β 11 β 20 β 21 β 30 β 31 klasická směs 2.033 0.051 2.063 0.018 3.683 0.005 34.297 0.059 13.816 0.003 směs s dopr. prom. 1.713 0.048 1.799 0.016 4.772 0.005 29.577 0.059 56.016 0.010 For three component mixture - most of the standard mixture estimates are completely inaccurate and not included in the estimates quality comparison. regression Categorical Continuous - explanatory

Conclusions regression can be applied to data where observations originate from various groups and the group affiliations are not known. Mixture of provides quality estimates in the sense of lower MSE and variance of parameters. Concomitant enhances the classification of observations. regression Categorical Continuous - explanatory

regression Thank you for your attention! Categorical Continuous - explanatory

BENAGLIA, T., CHAUVEAU, D., HUNTER, D.R. a YOUNG, D.S.. Mixtools: An R Package for Analyzing Finite Mixture Models. Journal of Statistical Software. 2009, Vol. 32, No. 6. www.jstatsoft.org [online 27.2.2014] DE VEAUX, R.D. linear regressions. Comput. Statist. Data Anal. 1989, No. 8, pp. 227 245. DESARBO, W.S. a CRON, W.L.. A Maximum Likelihood Methodology for Clusterwise Linear Regression. Journal of Classification. 1988, No. 5. URL: deepblue.lib.umich.edu [online 3.3.2014] FARIA, Susana, SOROMENHO, Gilda. Fitting mixtures of linear regressions. Journal of Statistical Computation and Simulation (Impact Factor: 0.63). 03/2010; 80:201-225. DOI:10.1080/00949650802590261. URL: http://www.researchgate.net [online 10. 2. 2014] GRÜN, B. a LEISCH. F.. Fitting Finite Generalized Linear Regressions in R. Computational Statistics and Data Analysis. 2006. URL: http://www.ci.tuwien.ac.at [online 5. 5. 2015] GRÜN, B. a LEISCH. F.. FlexMix Version 2: Finite Mixtures with Concomitant Variables and Varying and Constant Parameters. Journal of Statistical Software. 2008, Vol. 28, No. 4. URL: cran.at.r-project.org [online 3.3.2014] HOSHIKAWA, Toshiya. for observational data, with application to functional regression. 2013. URL: arxiv.org [online 10.3.2014] JONES, P.N., MCLACHLAN, G.J. Fitting finite mixture in a regression context. Aust. J. Statist. 1992, No. 34, pp. 233 240. LEISCH, Friedrich. FlexMix: A General Framework for Finite Mixture Models and Latent Class Regression in R. Journal of Statistical Software. 2004, Vol. 11, No. 8. regression Categorical Continuous - explanatory