Multikolinearita. V principu jde o velmi jednoduchý postup, který může vést k úplné

Podobné dokumenty
4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

4EK211 Základy ekonometrie

5EN306 Aplikované kvantitativní metody I

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza 1. Regresní analýza

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

6. Lineární regresní modely

AVDAT Klasický lineární model, metoda nejmenších

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

Korelační a regresní analýza

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

4EK211 Základy ekonometrie

AVDAT Geometrie metody nejmenších čtverců

Úvodem Dříve les než stromy 3 Operace s maticemi

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

LINEÁRNÍ REGRESE. Lineární regresní model

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

6. Lineární regresní modely

Regresní analýza. Eva Jarošová

Inovace bakalářského studijního oboru Aplikovaná chemie

Bodové a intervalové odhady parametrů v regresním modelu

4EK211 Základy ekonometrie

Regresní a korelační analýza

Statistika II. Jiří Neubauer

Lineární regrese. Komentované řešení pomocí MS Excel

6. Lineární regresní modely

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

odpovídá jedna a jen jedna hodnota jiných

Ekonometrie. Jiří Neubauer

Regresní a korelační analýza

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ

PRAVDĚPODOBNOST A STATISTIKA

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Příloha č. 1 Grafy a protokoly výstupy z adstatu

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika (KMI/PSTAT)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Kontingenční tabulky, korelační koeficienty

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Závislost vysvětlujících proměnných v regresním modelu

KGG/STG Statistika pro geografy

2.2 Kalibrace a limity její p esnosti

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Úloha 1: Lineární kalibrace

Ilustrační příklad odhadu LRM v SW Gretl

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Statistická analýza jednorozměrných dat

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Semestrální práce. 2. semestr

AVDAT Nelineární regresní model

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Časové řady, typy trendových funkcí a odhady trendů

11 Analýza hlavních komponet

Kalibrace a limity její přesnosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Statistická analýza jednorozměrných dat

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Kanonická korelační analýza

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Pravděpodobnost a matematická statistika

Kontingenční tabulky, korelační koeficienty

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

http: //meloun.upce.cz,

Časové řady, typy trendových funkcí a odhady trendů

AVDAT Výběr regresorů v mnohorozměrné regresi

STATISTIKA I Metodický list č. 1 Název tématického celku:

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pearsonův korelační koeficient

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Lucie Dřizgová. Multikolinearita

Statistická analýza jednorozměrných dat

Korelace. Komentované řešení pomocí MS Excel

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Klasická a robustní ortogonální regrese mezi složkami kompozice

Tomáš Karel LS 2012/2013

6. Lineární regresní modely

Transkript:

Multikolinearita Problém multikolinearity se váže k matici vysvětluících proměnných X, eíž sloupce mohou být někdy (přesně nebo přibližně) lineárně závislé. ím e zřemě porušen předpoklad o maximální možné hodnosti k matice X v klasickém (ale i zobecněném) lineárním regresním modelu. Pokud existue pouze eden lineární vztah mezi vysvětluícími proměnnými, mluvíme o kolinearitě, pokud takovýchto vztahů existue více, hovoří se o multikolinearitě. Poem multikolinearita se nicméně používá často i v prvním menovaném případě. Negativní důsledky multikolinearity : V důsledku toho, že matice X nemá plnou hodnost (nebo eí sloupce budou téměř lineárně závislé) bude momentová matice X ' X singulární (vzácně) nebo téměř singulární (častěi). V důsledku toho bude mít tato matice determinant nulové nebo 1 velmi malé hodnoty a následně toho matice ( X ' X ) bude mít značně velké prvky. Pak maí rozptyly parametrů velmi značné hodnoty (a tedy t-statistiky regresních koeficientů signalizuí zpravidla nevýznamnost těchto koeficientů). Odhady regresních koeficientů mohou být současně vzáemně silně závislé. Nelze proto rozlišit individuální významnost ednotlivých vysvětluících proměnných. o nemusí vadit při predikčním využití modelu, zpravidla to však komplikue analytické uplatnění. Multikolinearita (exaktní=přesná) e téměř vždy důsledkem poruchy ve struktuře modelu a nemůže být napravena vzetím dodatečných pozorování z téhož vzorku (de-li o hodnoty vzaté z téhož základního souboru). Multikolinearita (přibližná) e častěi důsledkem poruchy ve struktuře modelu a en zřídkakdy může být napravena vzetím dodatečných pozorování z téhož vzorku (z téhož základního souboru). Přesná multikolinearita vzniká vzácně, a to zpravidla pro neuvědomění si potřeby vyhnout se zařazení skupiny přesně lineárně závislých proměnných do rovnice : 1) zařazením nezávisle proměnné, která má stenou hodnotu ve všech pozorováních. ) zařazením vysvětluící proměnné, která vzniká zprůměrováním některých dalších nezávisle proměnných 3) při chybném zařazení všech umělých (např. sezónně chápaných) proměnných (ednu e třeba vždy z rovnice vypustit). Postupy zmírňuící negativní důsledky multikolinearity 1) vynechání problémové proměnné = zednodušení modelu V principu de o velmi ednoduchý postup, který může vést k úplné eliminaci problému. Není však vždy zřemé, kterou proměnnou (proměnné) obětueme za tímto účelem. Přednost : Jednoduchost postupu okamžitě řešícího problém Slabina : V případě, že vynechávané proměnné dle ekonomické teorie maí své opodstatnění v regresní rovnici, dopouštíme se prohřešku ve specifikaci modelu (současně tím porušíme nestrannost odhadu parametrů zednodušeného modelu). 1

) transformace některé z vysvětluících proměnných ransformací (např. použitím přechodem k diferencím nebo relativním přírůstkům) některých vysvětluících proměnných obvykle dosáhneme eliminaci nebo zmírnění multikolinearity (pokud lineárně závisle proměnné ponecháme beze změny). Na druhé straně však použití relativních přírůstků může vést k heteroskedasticitě (náhodných složek) a použití diferencí analogicky zase k autokorelaci náhodných složek, takže řešením ednoho neduhu vyvoláme neduh iný. Nicméně, tento postup lze vcelku vhodně uplatnit, pokud zařazení transformovaných proměnných neodporue ekonomické teorii. 3) aplikace metody hlavních komponent Jde o postup (známý především z prostředí faktorové analýzy), kterým se množina původních vysvětluících proměnných transformue na inou množinu vysvětluících proměnných, přičemž individuální přínos každé z těchto transformovaných proměnných (tzv. hlavních komponent) k vysvětlení závisle proměnné e ve statistickém slova smyslu nezávislý na iných těchto transformovaných proměnných. Původně korelované vysvětluící proměnné se takto převáděí na nekorelované (dokonce ortonormální) nové vysvětluící proměnné. Obdobně se transformuí i parametry modelu. Počet původních a transformovaných proměnných e stený, transformované proměnné však nemusíme použít všechny. Přednost: Přechodem k ortogonálním proměnným (ne nutně ke všem, ale en k těm, které maí nevětší vliv na závisle proměnnou) docílíme úplnou eliminaci multikolinearity. Slabina: Velmi často nesou nové proměnné niak rozumně obsahově interpretovatelné (de o lineární kombinaci původních proměnných), takže přitažlivost techniky postupu může na druhé straně znamenat snížení obsahové průhlednosti kauzálního vztahu. 4) aplikace hřebenové (ridge) regrese 1 Jde o postup, kterým se uměle zvětší všechny prvky na diagonále matice 1 ( X ' X ) o stenou konstantu (c) za účelem dosažení vyšší hodnoty determinantu této matice. Odhady regresních koeficientů přitom získáme ako ˆ RLS β = ( X ' X+ c. Ik ) 1 X ' y Přednost : Determinant matice X ' X lze zvýšit přidáním konstanty c o libovolnou hodnotu, takže lze dosáhnout výrazného zvýšení hodnoty determinantu matice X ' X+ c. Ik a následně snížení směrodatných odchylek parametrů (tudíž se posílí významnost t-statistik regresních koeficientů) 1 Hoerl, A.E., Kennard, R.W.: Ridge Regression: Biased Estimation for Non-orthogonal Problems. echnometrics. 1/1970 s.55-67.

Slabina : Jde o umělý postup, který vede k tomu, že získané odhady nesou nestranné (maí však v istém rozsahu aditivního zvýšení diagonály menší rozptyly). Existuí nicméně istá vodítka, ak volit konstantu c aditivně přidávanou k diagonále matice X ' X, aby přednost převýšila slabinu. Obvykle se pro hodnotu konstanty c doporučue tato volba: k s c =, kde '. kde k e počet vysvětluících proměnných rovnice s e (metodou ) odhadnutý rozptyl náhodných složek ε e odhad regresních parametrů β pořízený estimátorem 5) nasazením Steinovy odhadové funkce 3 založené na principu kritéria minima kvadratické ztrátové funkce ve tvaru Min (. β )' X ' X ( β) kde X e matice normovaných vysvětluících proměnných (uložených opět po sloupcích), tedy s vlastnostmi xi = 0 a xi = 1 při vypuštění i i absolutního členu z regresního vztahu. Steinova odhadová funkce neposkytue nestranné odhady, avšak odhady pomocí ní získané maí zpravidla menší rozptyl a metoda e robustněší vůči při nedodržení předpokladu (přesné) normality náhodných složek. 6) využitím apriorní (mimomodelové) statistické informace Nečastěi lze uplatnit různé ad hoc postupy podle povahy řešené úlohy, ako např. (a) Položením omezení na některé parametry modelu (b) uplatněním smíšeného (mixed) odhadu kombinací průřezových dat a údaů časových řad. Např. v analýze spotřebitelské poptávky se závisle proměnnou spotřeba daného statku de o využití (neznámé u časových řad) informace o přímové a cenových pružnostech poptávky z průřezových dat. Informaci o přímové pružnosti z výběrového šetření o přímech a výdaích lze např. uplatnit k eliminaci vlivu změn přímu na poptávku a v analýze založené na vzorku časových řad se omezíme toliko na odhad cenových pružností poptávky. Nutným předpokladem ovšem e, aby v obou dílčích úlohách byl koeficient přímové pružnosti poptávky steně chápán (u některých druhů zboží se mohou podstatně lišit přímové pružnosti v krátko- a střednědobém časovém horizontu. Hoerl, A.E., Kennard, R.W., Baldwin, K.F.: Ridge Regression. Some Simulation. Commun.Statistics. 4/1975 s. 105-13 3 Stein, C. M.: Inadmissibility of the Usual estimator for the Mean of a Multivariate Normal Distribution. Proc. of the J.Bekeley Symp. on Mathematical Statistics and Probability. 1956 s.197-06. 3

Prostředky k diagnostikování multikolinearity (A) F-test dílčích koeficientů determinace. Pro každou z vysvětluících proměnných formulueme regresi, v níž tato proměnná vystupue ako závisle proměnná a e vysvětlována ostatními k-1 nezávisle proměnnými regresní rovnice. Pro pevně zvolenou tou proměnnou x pak testueme (standardním F-testem) statistickou významnost skupiny ostatních k-1 proměnných obvyklým F-testem, založeným na koeficientu determinace: R F k J = =,3,..., k 1 R ( k + 1) Je-li většina hodnot F statisticky významná, zamítá se hypotéza o ortogonalitě vysvětluících proměnných, což e však podstatně přísněší podmínka než nepřítomnost významné kolinearity. (B) Rovněž Lawrence Klein navrhue ako test únosnosti multikolinearity test spočívaící v posouzení velikosti R (koeficient determinace závislosti vysvětlované proměnné y na k vysvětluících proměnných x 1, x,..., xk ) vůči koeficientům determinace R (koeficient determinace závislosti pevně zvolené vysvětluící proměnné x na k-1 vysvětluících proměnných x x x 1,,..., k mimo x ). Za vážný problém e však multikolinearita považována až tehdy, platí-li pro některé nerovnost R < R tzn. pokud pro některou z vysvětluících proměnných (vzatou ako závisle proměnná) má korelační koeficient R vyšší hodnotu než standardní R. (C) Farrar a Glauber 4 doporučuí nepřímý test multikolinearity založený na velikosti determinantu normované momentové matice R = X ' X, kde prvky X získáme ako normované hodnoty původních prvků matice X, tzn. 1/ xt x x, t (. ) t= xt =, kde x. = 1 xt x t= 1, sx =. sx. Prvky této momentové matice maí při daném způsobu normování charakter korelační matice, načež lze pomocí χ - testu testovat, zda se determinant této matice významně liší od edné. Pro případ multikolinearity platí, že R = 0 4 Farrar, D,E., Glauber R.R.: Multicollinearity in Regression Analysis: he Problem Revisited. Review of Economics and Statistics 49/1969 s. 9-107. 4

Pro případ ortogonality naopak platí R = 1 Hodnota mezi 0 a 1 (zištěná v praxi téměř vždy) tedy svědčí o istém stupni kolinearity ; ten však může být docela únosný. estování nulové hypotézy tvaru H 0 : R = 1 se provádí χ testem, avšak zamítnutí této nulové hypotézy neznamená, že by byla v daném případě multikolinearita fatálním problémem. Ani zde tedy test nesměřue bezprostředně k ověřování multikolinearity, nýbrž k testování opačné situace, t. stavu kdy sou vysvětluící proměnné navzáem ortogonální (tzn. kdy žádná neobsahue ani kousek informace, kterou obsahuí ostatní). 5