Umělé (dummy) proměnné v ekonometrickém modelu

Podobné dokumenty
TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Tomáš Karel LS 2012/2013

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

10. Předpovídání - aplikace regresní úlohy

4EK201 Matematické modelování. 11. Ekonometrie

6. Lineární regresní modely

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

4EK211 Základy ekonometrie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika (KMI/PSTAT)

Ilustrační příklad odhadu LRM v SW Gretl

Bodové a intervalové odhady parametrů v regresním modelu

5EN306 Aplikované kvantitativní metody I

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

7. Rozdělení pravděpodobnosti ve statistice

AVDAT Klasický lineární model, metoda nejmenších

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

Úvodem Dříve les než stromy 3 Operace s maticemi

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

4EK211 Základy ekonometrie

Korelační a regresní analýza

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

LINEÁRNÍ REGRESE. Lineární regresní model

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Regresní a korelační analýza

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

4EK211 Základy ekonometrie

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

5EN306 Aplikované kvantitativní metody I

AVDAT Nelineární regresní model

6. Lineární regresní modely

Jana Vránová, 3. lékařská fakulta UK

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Spokojenost se životem

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Jana Vránová, 3. lékařská fakulta, UK Praha

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Měření závislosti statistických dat

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Cvičení 9 dekompozice časových řad a ARMA procesy

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4. Aplikace matematiky v ekonomii

INDUKTIVNÍ STATISTIKA

AVDAT Mnohorozměrné metody, metody klasifikace

Lineární regrese. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

LINEÁRNÍ MODELY. Zdeňka Veselá

4ST201 STATISTIKA CVIČENÍ Č. 10

Technická univerzita v Liberci

4EK211 Základy ekonometrie

odpovídá jedna a jen jedna hodnota jiných

cv3.tex. Vzorec pro úplnou pravděpodobnost

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

8 Coxův model proporcionálních rizik I

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Intervalová data a výpočet některých statistik

ADDS cviceni. Pavlina Kuranova

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Statistické metody uţívané při ověřování platnosti hypotéz

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz a měření asociace mezi proměnnými

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Základy genetiky populací

Tabulka 1 Rizikové online zážitky v závislosti na místě přístupu k internetu N M SD Min Max. Přístup ve vlastním pokoji ,61 1,61 0,00 5,00

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistika II. Jiří Neubauer

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Ekonometrie. Jiří Neubauer

Transkript:

Umělé (dummy) proměnné v ekonometrickém modelu V ekonometrických modelech se často mezi vysvětlujícími proměnnými vyskytují veličiny, které nelze číselně vyjádřit měřením. Přítomnost těchto veličin je nicméně často velmi důležitá s ohledem na to, že tyto veličiny často vykazují významný vliv na závisle proměnnou. Nejčastěji se jedná o proměnné demografického, sociálního, urbanistického, etnického nebo obdobného charakteru. Společným znakem těchto kvalitativních či diskrétních proměnných je to, že mají omezený (a často uměle vytvořený) okruh přípustných hodnot, kterých nabývají. Z hlediska možností obměn, kterých veličina nabývá, rozlišujeme: a) proměnné dichotomické (dvouznakové, binární) jako je pohlaví (muž/žena), místo bydliště jedince (městské/venkovské), příslušnost k etnické skupině (nerom/rom), zvyk chování (kuřák/nekuřák) apod. b) proměnné kategoriální (víceznakové, leč s omezeným oborem přípustných hodnot). Příkladem může být stupeň vzdělání (základní/střední/vysokoškolské), věková skupina (řekněme v 5 nebo 10-letých agregacích), příjmové či majetkové rozvrstvení apod. Někdy lze hodnoty proměnné seřadit (věk, stupeň vzdělání, příjmové kategorie ), jindy to postrádá smysl (pohlaví, profesní struktura apod.) Poznamenejme, že umělou proměnnou není např. počet členů domácnosti, byť je vyjádřena vždy jen přirozeným číslem. Bez zařazení těchto proměnných do regresních vztahů bychom byli ochuzeni o významný informační přínos, který právě zvláštnost příslušnosti k některé specifické skupině přináší. V modelech založených na časových řadách se navíc často uplatní umělé proměnné k postižení sezónnosti: postihneme jimi právě vliv specifického měsíce nebo čtvrtletí v průběhu daného roku. Všimněme si několika důležitých otázek hrajících úlohu při formulaci regresního vztahu s umělými proměnnými 1) stanovení hodnot umělé proměnné: při identifikaci pohlaví není podstatné, zda muž =1, žena = 0, nebo opačně nebo hodnoty 1,2 či jiné. 2) Rozdělení stupnice pro věkovou strukturu by mělo vycházet z potřeb analýzy a z požadavku, aby homogenita sledované vlastnosti uvnitř skupin byla zřetelně vyšší než mezi jednotkami/příslušníky různých skupin. U věkových skupin sotvakdy požadujeme detailnější než 5-leté členění. Často se krajní intervaly (s početně méně zastoupenými jedinci) stanovují širší než vnitřní (např. společná věková třída : nad 80 let ). 3) Pokud je stupnice hodnot znaku příslušná dané proměnné více než dvouznaková, je užitečné nejprve vyšetřit, zda skutečný funkční tvar závislosti vysvětlované proměnné na dané ( umělé) vysvětlující odpovídá předpokládanému, protože hodnoty odhadnutých parametrů mohou být citlivé na použitou klasifikační stupnici. 1

Je užitečné říci, že obvykle (byť na první pohled překvapivě) se upřednostňuje užití kombinovaných 0-1 vektorů než víceznakové vyjádření dané proměnné. Je tomu tak i přesto, že tato cesta vede často k podstatnému zvýšení počtu odhadovaných regresních koeficientů. Volba nula-jedničkového schématu hodnot umělých proměnných (a obecná tendence preferovat spíše 0-1 schéma na úkor vícebodové ordinální stupnice) má svůj důvod mj. v možnosti, co nejpřirozeněji postihnout význam regresních koeficientů. Vždy se snažíme především o to, aby míra vlivu specifické umělé veličiny byla popsatelná co nejjednodušší kombinací modelových parametrů. Dále, při zařazování umělých proměnných do regresního vztahu se musíme vystříhat toho, aby došlo (zařazením všech umělých proměnných) k nežádoucímu vzniku (přesné) multikolinearity. Vždy si můžeme dovolit zařadit do regresního vztahu (obsahuje-li tento vektor jedniček) umělé proměnné maximálně v takovém počtu, který je o 1 menší, než je jejich počet pro veličinu, kterou vystihují (tedy nanejvýš 3 čtvrtletní umělé proměnné, 11 měsíčních nebo 2 proměnné pro třístupňovou vzdělanostní klasifikaci). V případě kombinací více veličin vystižených umělými proměnnými se tento maximální přípustný počet dále snižuje. Přibližme příkladem : Ve vzorku cca 200 osob sledujeme závislost mzdy pracovníka na nejvyšším dosaženém stupni jeho vzdělání. Za tímto účelem formulujeme regresní rovnici vztahem (1) Y t = β 1 X t1 + β 2 X t2 + β 3 X t3 + ε t, kde Y t je (roční) mzda t-tého pracovníka X t1 = 1 pro všechna t (jde o jedničkový vektor) X t2 = 1, má-li pracovník (nejvýš) základní vzdělání X t2 = 0 v ostatních případech X t3 = 1, má-li pracovník (nejvýš) středoškolské vzdělání X t3 = 0 v ostatních případech ε t je náhodná složka regresní rovnice s obvyklými stochastickými vlastnostmi (např. standardního lineárního regresního modelu). K přiblížení interpretace regresních parametrů nám zde poslouží nejlépe vyjádření v podmíněných středních hodnotách. Tak lze zapsat E(Y t X t2 = 0 ; X t3 = 0) = β 1 E(Y t X t2 = 1 ; X t3 = 0) = β 1 + β 2 E(Y t X t2 = 0 ; X t3 = 1) = β 1 + β 3 2

Odtud je patrné, že úrovňová konstanta β 1 vyjadřuje průměrný plat vysokoškoláka. Regresní parametr β 2 představuje rozdíl v průměrných platech vysokoškoláka a osobou se základním vzděláním, a obdobně β 3 měří rozdíl mezi průměrným platem vysokoškoláka a středoškoláka. V případě testu hypotézy o neexistenci významného rozdílu mezi platy vysokoškoláka a středoškoláka bychom formulovali a testovali nulovou hypotézu tvaru β 3 = 0. Povšimněme si, že do regresní rovnice nelze zařadit třetí umělou proměnnou (X t4 = 1 pro případ, že se jedná o vysokoškoláka), neboť by vznikla perfektní multikolinearita (součet vektorů všech tří umělých proměnných by poskytl vektor identický s jedničkovým vektorem). V modelu (1) bychom mohli vynechat jedničkový vektor (s parametrem β 1 ) a uplatnit tak modifikovaný tvar rovnice (1A) Y t = β 2 X t2 + β 3 X t3 + β 4 X t4 + ε t, kde X t4 = 1, má-li pracovník vysokoškolské vzdělání X t4 = 0 v ostatních případech, avšak interpretace parametrů bude nyní jiná. Tak rozdíl mezi výší mezd středoškoláka a pracovníka se základním vzděláním bude nyní dán rozdílem parametrů β 3 -β 2, rozdíl v průměrných mzdách vysokoškoláka a osoby se základním vzděláním udává rozdíl β 4 - β 2, zatímco rozdíl mezi průměrnou mzdou vysoko- a středoškoláka udává rozdíl parametrů β 4 - β 3. Formulujme nyní původní regresní rovnici (1) s modifikací představovanou přidáním proměnné pohlaví. Označíme ji S t (2) Y t = β 1 X t1 + β 2 X t2 + β 3 X t3 + γ.s t + ε t, kde S t = 0, jedná-li se o muže S t = 1, jde-li se o ženu. Význam ostatních veličin modelu zůstává stejný. Pak opět vyjádření v podmíněných středních hodnotách vede k výsledkům E(Y t X t2 = 0 ; X t3 = 0 ; S t = 0) = β 1 E(Y t X t2 = 1 ; X t3 = 0 ; S t = 0) = β 1 + β 2 E(Y t X t2 = 0 ; X t3 = 1 ; S t = 0) = β 1 + β 3 E(Y t X t2 = 0 ; X t3 = 0 ; S t = 1) = β 1 + γ E(Y t X t2 = 1 ; X t3 = 0 ; S t = 1) = β 1 + β 2 + γ E(Y t X t2 = 0 ; X t3 = 1 ; S t = 1) = β 1 + β 3 + γ Ve všech případech přestavuje parametr γ rozdíl mezi průměrnými mzdami žen a mužů majících jinak stejný nejvyšší dosažený stupeň vzdělání. 3

Zde opět parametr β 1 vyjadřuje průměrnou mzdu pracovníka s VŠ vzděláním, zatímco parametr β 2 představuje rozdíl v průměrných platech vysokoškoláka a muže se základním vzděláním, a obdobně β 3 měří rozdíl mezi průměrným platem vysokoškoláka a středoškoláka. Poznámka : z povahy zadání modelu lze vyvodit, že parametry β 2, β 3 budou pravděpodobně záporné. Totéž očekávání lze vyslovit ve vztahu k parametru γ, pokud jsme zvolili S t = 0 pro muže, resp. S t = 1 u ženy. Někdy se situace může dále komplikovat, pokud připustíme vzájemné interakce mezi určitými kvalitativními proměnnými (zde např. závislost dosaženého stupně vzdělání na pohlaví). To navíc vede k dalšímu nárůstu počtu umělých proměnných a k zvýšení pravděpodobnosti vzniku problémů spojených s nízkým počtem stupňů volnosti při statistickém testování. Poznámka : V komplikovanějších úlohách se někdy ukazuje vhodnější než regresi s více umělými diskrétními proměnnými uplatnit analýzu rozptylu, která je ekvivalentní regresní analýze, pokud model obsahuje výlučně nula-jedničkové vysvětlující proměnné. Příkladem modelu, který v sobě zahrnuje jako vysvětlující jak umělé proměnné, tak konvenční ekonomické (měřitelné) proměnné, může být model zobrazující funkci úspor v následující specifikaci : (3) S t = β 1 X t1 + β 2 D t2 + β 3 D t3 + γ.y t + ε t, kde S t je objem úložek (alokovaných za daný rok ke stávajícím úsporám ) D t2 D t3 Y t X t1 ε t = 1 pro 2. věkovou skupinu = 0 jinak (pro jiné skupiny) = 1 pro 3. věkovou skupinu = 0 jinak (pro jiné skupiny) je disponibilní příjem t-tého spořitele = 1 pro všechna t ( jde opět o jedničkový vektor s interpretací jisté minimální hladiny úložek ) je náhodná složka regresní rovnice s obvyklými vlastnostmi Předpokládáme přitom, že 3 užité věkové skupiny jsou stanoveny takto : 1. skupina : věk 16-29 let 2. skupina : věk 30-44 let 3. skupina : věk 45-60 let Usuzujeme tedy, že kromě disponibilního příjmu Y t je roční objem úspor S t (úložky na vklady) závislý na věkové struktuře spořitelů, přičemž v souladu s realitou lze očekávat, že s přibývajícím věkem roste tendence ke spořivosti (s ohledem na zabezpečení přibližujícího se stáří). Mezní sklon k úsporám ( koeficient γ ) je (jako průměrná hodnota) neutrální vůči věku (vztahuje se k průměrnému spořiteli). 4

Poznámka : Veličina S t by neměla být zaměňována s hodnotou úspor vyjádřených ve stavové formě (např. jako zůstatek na účtech či jiných vkladových depozitech a hodnota likvidních cenných papírů), neboť ta je silně závislá na dříve (v minulých letech) naspořených částkách. Pro vystižení takové závisle proměnné bychom se neobešli (přinejmenším) bez její hodnoty v minulém roce S t-1, a patrně též bez proměnné vyjadřující objemy výběrů z těchto účtů. Pro model (3) tedy máme E(S t D t2 = 0 ; D t3 = 0, Y t ) = β 1 + γ.y t E(S t D t2 = 1 ; D t3 = 0, Y t ) = ( β 1 + β 2 ) + γ.y t E(S t D t2 = 0 ; D t3 = 1, Y t ) = ( β 1 + β 3 ) + γ.y t Každý ze vztahů představuje závislost výše úložek na disponibilním příjmu v první, druhé a třetí věkové kategorii. Nejmladší věková skupina je zde přijata jako základní hladina, vůči které jsou porovnávány ostatní dvě. S ohledem na tendenci růstu spořivosti s věkem, lze očekávat, že β 2 > 0, β 3 > 0. S ohledem na svůj význam bude koeficient γ také kladný. Poznámka : Věkové skupiny bychom mohli také ohodnotit pořadovými čísly 1, 2, 3 a pracovat s jedinou vysvětlující proměnnou D. Model by pak pozměnil tvar na (3a) S t = β 1 X t1 + β 2 D t + + γ.y t + ε t, kde D t = 1 pro osobu z 1. věkové skupiny D t = 2 pro osobu z 2. věkové skupiny D t = 3 pro osobu z 3. věkové skupiny ( význam ostatních veličin S t, Y t, ε t zůstává nezměněn) Tento postup však není plně ekvivalentní s předchozím (nehledě na jinou interpretaci parametru β 2 ), neboť se zde předpokládá ekvidistantnost rozdílů ve spořivosti (tzn. rozdíl mezi 1. a 2. skupinou by v této specifikaci musel být stejný jako rozdíl mezi spořivostí 2. a 3. skupiny). Tento předpoklad nemusí být plně realistický. Nahrazení původních hodnot umělými proměnnými (dichotomickými nebo i kategoriálními) však vede pouze k aproximativnímu odhadu vlivu původní vysvětlující proměnné na změny závisle proměnné. Přesnost takového odhadu přirozeně klesá s početností a nestejnorodostí vytvořených skupin/kategorií. 5