Závislost vysvětlujících proměnných v regresním modelu

Podobné dokumenty
6. Lineární regresní modely

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

AVDAT Klasický lineární model, metoda nejmenších

5EN306 Aplikované kvantitativní metody I

Korelační a regresní analýza

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

4EK211 Základy ekonometrie

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Ilustrační příklad odhadu LRM v SW Gretl

LINEÁRNÍ REGRESE. Lineární regresní model

Úvodem Dříve les než stromy 3 Operace s maticemi

PRAVDĚPODOBNOST A STATISTIKA

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní a korelační analýza

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistika II. Jiří Neubauer

Ekonometrie. Jiří Neubauer

Tomáš Karel LS 2012/2013

AVDAT Geometrie metody nejmenších čtverců

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Lineární regrese. Komentované řešení pomocí MS Excel

AVDAT Výběr regresorů v mnohorozměrné regresi

4ST201 STATISTIKA CVIČENÍ Č. 10

Regresní a korelační analýza

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní analýza. Eva Jarošová

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

6. Lineární regresní modely

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Bodové a intervalové odhady parametrů v regresním modelu

Technická univerzita v Liberci

odpovídá jedna a jen jedna hodnota jiných

Diagnostika regrese pomocí grafu 7krát jinak

Kanonická korelační analýza

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Příloha č. 1 Grafy a protokoly výstupy z adstatu

AVDAT Mnohorozměrné metody, metody klasifikace

10. Předpovídání - aplikace regresní úlohy

6. Lineární regresní modely

KGG/STG Statistika pro geografy

4EK211 Základy ekonometrie

Regresní a korelační analýza

5EN306 Aplikované kvantitativní metody I

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

4EK211 Základy ekonometrie

Regresní a korelační analýza

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Testování hypotéz a měření asociace mezi proměnnými

Dynamické metody pro predikci rizika

Multikolinearita. V principu jde o velmi jednoduchý postup, který může vést k úplné

LINEÁRNÍ MODELY. Zdeňka Veselá

PRAVDĚPODOBNOST A STATISTIKA

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Statistická analýza jednorozměrných dat

Klasická a robustní ortogonální regrese mezi složkami kompozice

Chyby měření 210DPSM

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 3

Úvod do problematiky měření

Semestrální práce. 2. semestr

Statistická analýza dat

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Úlohy nejmenších čtverců

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Zákony hromadění chyb.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Tvorba nelineárních regresních

Kalibrace a limity její přesnosti

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

Pokročilé neparametrické metody. Klára Kubošová

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

vzorek vzorek

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Tomáš Karel LS 2012/2013

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

8 Coxův model proporcionálních rizik I

Transkript:

Závislost vysvětlujících proměnných v regresním modelu The dependency of the explanatory variables in the regression model Hynek ČERNÝ Abstrakt Neexistence (či spíše akceptovatelná hodnota) multikolinearity je jedním z předpokladů úspěšné aplikace klasického lineárního regresního modelu. Obvyklé řešení bývá postupná eliminace vzájemně provázaných proměnných a hodnocení parametrů takto vzniklých modelů. V poslední době se osvědčily méně pracné techniky a systematičtější způsoby řešení tohoto zajímavého problému. Klíčová slova: multikolinearita, regrese, PCL, PLSR. Abstract The absence (or rather the acceptable value) of multicolinearity is one of the prerequisites of a successful application of the classical linear regression model. The usual solution is the gradual elimination of interrelated variables and followingassessmentof the resulting models. In recent times the less laborious techniques and more systematic ways of resolving this interesting issue appeared. Key words: multicollinearity, regression, PCL, PLSR.

Úvod V regresní analýze se zabýváme vytvořením vhodného matematického modelu závislosti mezi vysvětlovanou a vysvětlujícími proměnnými (prediktory), stanovujeme parametry tohoto modelu a ověřujeme hypotézy vhodnosti modelu a jeho vlastností.počet potenciálních faktorů, které lze začlenit do regresního modelu je teoreticky omezen pouze kapacitami a dostupností dat.fakticky je však třeba vzít v úvahu některá omezení. Předpoklady klasického modelu Předpoklady klasického lineárního regresního modelu (Greene, 2008) jsou následující: linearita model specifikuje lineární závislost mezi y a x 1,, x k, hodnotnost (neexistence multikolinearity) neexistuje přímá lineární závislost mezi žádnou z nezávislých proměnných x i v modelu, exogenita nezávislých proměnných odhadovaná hodnota reziduí ε i pozorovánínení funkcí pozorování žádných nezávislých proměnných. To znamená, ženezávislé proměnné nejsou nositeli žádné informace použitelné k predikcináhodné složky.předpokládá se, že náhodná složka má, podmíněně, očekávanou hodnotu každého pozorování rovnu nule, homoskedasticita a neautokorelace reziduí každá náhodná složka ε i má stejnýa konečný rozptyl σ 2 a není korelována s žádnými jinými rezidui. Předpokládáse, že odchylky pozorování od jejich očekávaných hodnot jsou nekorelované, normální rozdělení náhodné složky jsou náhodně rozděleny. Multikolinearita Často diskutovaným požadavkem je neexistence multikolinearity. Multikolinearita je pojem, jehož význam spočívá ve faktu, že je třeba vážit nejen výběr vhodných regresorů ale i jejich počet. Neadekvátní výběr a počet regresorů může způsobit nemožnost stanovení jeho koeficientů, v lepším případě učiní model nesrozumitelným a neaplikovatelným. Multikolinearita je dána korelací prediktoru s jiným prediktorem, nebo se skupinou jiných prediktorů v navrhovaném modelu (silná závislost mezi vysvětlujícími proměnnými) a znamená, že některé prediktory jsou v navrhovaném modelu více či méně nadbytečné a způsobují tak jeho zbytnělost a nesrozumitelnost. Multikolinearita je do určité míry běžný jev a nemusí způsobovat větší potíže. Avšak velká multikolinearita je značný problém, neboť nadhodnocuje součty čtverců regresních koeficientů, což vede k nadhodnocení důležitosti některých vysvětlujících proměnných. Multikolinearitataké zvyšuje rozptyly odhadů a snižuje tím přesnost odhadů individuálních hodnot.

Některé regresní koeficienty se tak jeví statisticky nevýznamné, i když F-test může být významný, což by jinak nasvědčovalo dobrému modelu. Odhady regresních koeficientů mohou být nestabilní, dochází k numerickým problémům při jejich vyčíslení. Čím větší rozptyl koeficienty mají, tím obtížnější je interpretace individuálního vlivu jednotlivých vysvětlujících proměnných a jejich vliv nelze odděleně sledovat. Obecné příčiny multikolinearity jsou zejména: regresní model obsahuje nadměrný počet vysvětlujících proměnných, nevhodná volba kombinací hodnot vysvětlujících proměnných, nevhodné rozmístění experimentálních bodů, omezení v modelu nebo v datech, tendence časových řad ekonomických ukazatelů (makroúdajů) vyvíjet se stejným směrem (např. HDP, export, import...), zahrnutí zpožděných endonebo exogenních proměnných. Pro posouzení, zda se v daném modelu zabývat problémem multikolinearity je vhodné sledovat následující signály. regresní koeficient není významný, ačkoli by teoreticky měl být vysoce korelován se závisle proměnnou, přidání nebo odebrání proměnné do/z modelu způsobí dramatické změny v regresních koeficientech, regresní koeficient má opačné znaménko, např. záporné, když očekáváme pozitivní změnu závisle proměnné na kladný pohyb příslušné nezávisle proměnné, nezávisle proměnné mají zjevně vysoké párové korelace. Multikolinearita se prokazuje zejména následujícími metodami: determinant korelační matice se při silné vzájemné lineární závislosti vysvětlujících proměnných blíží nule, nízká hodnota nejmenšího charakteristického čísla indikuje silnou lineární závislost vysvětlujících proměnných, index podmíněnosti korelační matice (odmocnina poměru největšího a nejmenšího charakteristického čísla) nad hodnotou 30 naznačuje existenci multikolinearity,

jednoduché korelační koeficienty dvojic vysvětlujících proměnných (nebo vícenásobné korelační koeficienty j-té vysvětlující proměnné vzhledem k ostatním vysvětlujícím proměnným) mají absolutní hodnoty> 0,8 (někdy se udává 0,9), kritérium M (založeno na paradoxu F-testu a dílčích t-testů) -kde t i jsou testová kritéria pro dílčí t-testy a F je testové kritérium pro celkový F-test. Orientačně, je-li (M>0,8), lineární závislost se označuje za silnou. Jedním ze způsobů měření multikolinearity je VIF (variance inflationfactor), který vyhodnocuje, jak moc se rozptyl odhadovaného regresního koeficientu zvýší, pokud jsou prediktory korelované. Pokud má VIF hodnotu jedna, nevyskytuje se v modelu multikolinearita. Naopak hodnota VIF v rozmezí 5-10 svědčí již o vysoké multikolinearitě. Hodnoty nad 10 znamenají problematickou spolehlivost korelačních koeficientů. S multikolinearitou se běžně lze vypořádat různými způsoby. Nejradikálnější možností bývá opatření jiných dat a pozorovacích metod, výběr jiných proměnných do modelu. Zpravidla se však zpočátku zkouší odstranění vysoce korelovaných prediktorů z modelu. V případě existence dvou, nebo více faktorů s vysokým VIF, je třeba jeden z nich z modeluodstranit, neboť představuje zřejmě nadbytečnou informaci. Odstranění jedné ze zkorelovaných proměnných zpravidla nesníží nijak dramaticky R 2. Účinným postupempři provádění regrese je postupné vynechávání proměnných i s využitím speciálních znalostí sady dat (použití pomocných regresí). Pokud jsoukoeficienty determinace z pomocných regresí nižší než koeficient zkoumaného celku, pak lze multikolinearitu posoudit jako akceptovatelnou 1. Progresivní možnosti řešení Zmíněné možnosti mají nevýhodu, že bývají pracné a nejsou úplně systematické. V posledních letech se proto začaly úspěšně využívat další techniky. Programový modul PrincipalComponent and Partial Least SquaresRegression in R 2. Z názvu plyne, že modul běží v dostupném programovém prostředí R. Jde o relativně nově vyvinuté regresní metody (tzv. multivariate regression methods ), které omezujípočet prediktorů na menší datovou sadu nekorelovaných komponent 3. Patří sem principalcomponentregression (PCR)apartial leastsquaresregression (PLSR). Tyto metody se staly populární v celé řadě oblastí, včetně přírodních 1 http://blog.minitab.com/blog/statistics-and-quality-data-analysis/giving-thanks-for-the-regression-menu-v2 2 http://mevik.net/work/software/pls.html 3 Autoři Bjørn-HelgeMevik (Norwegian University oflifesciences), Ron Wehrens (Radboud University Nijmegen)

věd. Hlavním důvodem je, že byly navrženy, aby se vyrovnaly se situací, kdy je mnoho, zřejmě též korelovaných, prediktorů a relativně málo pozorování. Zobecněný tvar regresní funkce má tvar Y = XB + a jeho řešení je dáno vztahem B = (X T X) 1 X T Y Častým problémem je, žex T X je singulární, protože počet proměnných (sloupců)x překračuje počet objektů (pozorování), nebo proměnné vykazují multi/kolinearitu. Obě metody, PCR i PLSR řeší tento problém dekompozicí X na ortogonální vektory T a sloupcové vektory P X = T P a regresí Y nikoli vůči X samotným ale vůči prvním sloupcům vektorů T. Zajímavým a relativně novým způsobem řešení problému je využití metod Bayesovské statistiky, např. Bayesian Model Averaging 4 pro lineární modelys možností volby a vlastních definic priors (apriorní informace). Naše informace o hodnotě neznámého parametru (apriorní informace)může totiž být vyjádřena pomocí pravděpodobnostního rozdělení, tj. neznámý parametr můžeme považovat za náhodnou proměnnou s určitým rozdělením pravděpodobnosti a nikoliv za neznámou konstantu, jak je tomu v klasické statistice.kvalita apriorních informací je důležitá, protože zásadním způsobem ovlivňuje aposteriorní rozdělení a tím i závěr, který vyvodíme.když o parametru žádné apriorní informaceneznáme,předpokládáme, že každá možná hodnota odhadovaného parametru je stejně pravděpodobná. Je třeba se smířit s argumentací klasické statistiky, že apriorní informace másubjektivní charakter, čímž je dána i subjektivita modelu. V modelu vestavěné priors zahrnují apriorní koeficienty (fixní, flexibilní a hyper-g priors),pět typů modelů apriorních informací, dále vzorkovací modely nebo různé postupy na bázi MCMC.Navazující funkce umožňujíanalýzy posteriorních rozdělení apravděpodobností modelů, koeficientů, momentů a prediktivních hustot. Závěr Nejčastější případy multikolinearity jsou bohužel způsobeny ekonomickými souvislostmi vysvětlujících proměnných v modelu (analogicky v přírodních vědách). Jsou svým způsobem dané a přirozené a jejich eliminace např. vypuštěním proměnných může vést k systematickým chybám a ani 4 Autoři Martin Feldkircher and Stefan Zeugner, http://bms.zeugner.eu/doc/bms-manual.pdf

pokus o pořízení jiného vzorku dat k lepším výstupům nemusí vést. Nastíněné metody řešení však mohou významně urychlit a zjednodušit optimalizaci výběru proměnných do modelu. Použitá literatura Hušek, R.: Ekonometrická analýza, 1. vydání, Praha 1999 Hebák, P., Svobodová, A.: Regrese II. část, VŠE v Praze, Praha 2001 Handling Multicollinearity in Regression Analysis dostupné na: http://blog.minitab.com/blog/understanding-statistics/handling-multicollinearity-in-regressionanalysis Hynek Černý Česká národní banka Na Příkopě 28 115 03 Praha 1 hnk.cerny@gmail.com