Obsah. Úvod 5. Závěr 62. Příloha 65. Příloha CD 73

Podobné dokumenty
Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

AVDAT Klasický lineární model, metoda nejmenších

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

4EK211 Základy ekonometrie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Regresní a korelační analýza

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

4EK211 Základy ekonometrie

Regresní a korelační analýza

4EK211 Základy ekonometrie

Regresní analýza 1. Regresní analýza

Ilustrační příklad odhadu LRM v SW Gretl

4EK211 Základy ekonometrie

Bodové a intervalové odhady parametrů v regresním modelu

Korelační a regresní analýza

Regresní analýza. Eva Jarošová

Umělé (dummy) proměnné v ekonometrickém modelu

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE. Lineární regresní model

5EN306 Aplikované kvantitativní metody I

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

AVDAT Geometrie metody nejmenších čtverců

LINEÁRNÍ MODELY. Zdeňka Veselá

You created this PDF from an application that is not licensed to print to novapdf printer (

Ekonometrie. Jiří Neubauer

Statistika II. Jiří Neubauer

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

4EK211 Základy ekonometrie

8 Coxův model proporcionálních rizik I

odpovídá jedna a jen jedna hodnota jiných

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Časové řady, typy trendových funkcí a odhady trendů

Lineární regrese. Komentované řešení pomocí MS Excel

Měření závislosti statistických dat

Tomáš Karel LS 2012/2013

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Časové řady, typy trendových funkcí a odhady trendů

Tomáš Karel LS 2012/2013

Úvodem Dříve les než stromy 3 Operace s maticemi

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Statistická analýza jednorozměrných dat

Bodové a intervalové odhady parametrů v regresním modelu

Statistická analýza jednorozměrných dat

Stavový model a Kalmanův filtr

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

INDUKTIVNÍ STATISTIKA

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Regresní a korelační analýza

Regresní a korelační analýza

4EK211 Základy ekonometrie

AVDAT Nelineární regresní model

KGG/STG Statistika pro geografy

Inovace bakalářského studijního oboru Aplikovaná chemie

Odhad parametrů N(µ, σ 2 )

Normální (Gaussovo) rozdělení

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

PRAVDĚPODOBNOST A STATISTIKA

4. Aplikace matematiky v ekonomii

Regresní a korelační analýza

4EK201 Matematické modelování. 11. Ekonometrie

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

KORELACE. Komentované řešení pomocí programu Statistica

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

4EK211 Základy ekonometrie

KGG/STG Statistika pro geografy

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Zákony hromadění chyb.

Semestrální práce. 2. semestr

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

0.1 Úvod do lineární algebry

Úvod do analýzy rozptylu

12. cvičení z PST. 20. prosince 2017

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Kalibrace a limity její přesnosti

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Úloha 1: Lineární kalibrace

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Kalibrace a limity její přesnosti

Transkript:

Obsah Úvod 5 1 Základy ekonometrického modelování 6 1.1 Lineární regresní model......................... 6 1.2 Metoda nejmenších čtverců....................... 9 1.3 Verifikace lineárního regresního modelu................ 10 2 Umělé proměnné v regresních modelech 13 2.1 Dichotomické umělé proměnné..................... 13 2.2 Kategoriální umělé proměnné..................... 16 2.3 Sezónní (umělé) proměnné....................... 20 2.4 Shrnutí.................................. 22 3 Typové příklady obsahující umělé proměnné 24 3.1 Analýza typových příkladů uváděných v literatuře.......... 24 3.1.1 Náklady na koupi domu.................... 24 3.1.2 Lodní nehody.......................... 27 3.2 Některé další příklady implementace umělých proměnných..... 29 3.2.1 Rodinné příjmy - studium důchodové dynamiky....... 29 3.2.2 Platby kreditní kartou..................... 36 3.2.3 Faktory ovlivňující mzdu.................... 40 3.3 Uplatnění umělých proměnných v analýze sezónnosti........ 49 3.3.1 Investice firem.......................... 49 3.3.2 Stavební průmysl v ČR..................... 52 3.4 Shrnutí.................................. 60 Závěr 62 Příloha 65 Příloha CD 73 4

Úvod Nejčastěji v ekonometrickém modelu vystupují takové kvantitativní proměnné, které jsou přímo měřitelné. V ekonometrické teorii se mimoto setkáváme s proměnnými, které nelze přímo ohodnotit, a přesto mohou sehrát důležitou roli v každé fázi ekonometrické analýzy. Takové proměnné nazýváme umělé (ang. dummy) a jejich pomocí můžeme do ekonometrických modelů zahrnout i mimoekonomické faktory konkretizující vlastnosti statistických jednotek, týkající se např. jednotlivců (pohlaví, národnost, barva pleti apod.), místního určení (sever proti jihu, regiony v rámci státu aj.) nebo při vyrovnání periodických sezónních výkyvů v časových řadách (sezónní proměnné), a získat tak podrobnější výpověď o zákonitostech ekonomeckých procesů a jevů. Cílem zpracování této diplomové práce je podrobnější analýza specifikací umělých (a sezónních) proměnných, při jejich zahrnutí jako vysvětlující veličiny do regresních rovnic a následné provedení kvantifikace, verifikace a interpretace ekonometrického modelu. Odhady parametrů všech proměnných v uvedených regresních rovnicích jsou spočteny pomocí programu MATLAB. K převážné většině příkladů je vykreslen i graf znázorňující pozorované vs. vyrovnané hodnoty (OLS Actual vs. Predicted) a rezidua (Residuals). První kapitola představuje teoretický úvod o základech ekonometrického modelování (v rámci lineárního regresního modelu) a použité odhadové metodě (metoda nejmenších čtverců). Druhá kapitola již blíže seznamuje se základními typy umělých proměnných a ke každému z nich je uveden typický příklad modelovaný buď na jednoduchém hypotetickém datovém souboru v příp. dichotomických a kategoriálních proměnných, nebo na reálných datech v příp. sezónních proměnných. Třetí kapitola obsahuje praktické příklady, členěné do 3 podkapitol. První z nich uvádí 2 ukázkové příklady prezentované v ekonometrických monografiích, které jsou rozšířeny o vlastní interpretaci výsledků. Druhá a třetí podkapitola se věnuje konkrétním analýzám datových souborů a interpretacím spočtených odhadů parametrů regresních rovnic. 5

Kapitola 1 Základy ekonometrického modelování Základní metodologický postup v ekonometrické analýze sestává z těchto fází: 1. Specifikace ekonometrického modelu určení a klasifikace všech proměnných zahrnutých do modelu na základě ekonomické teorie a získaných dat volba matematického tvaru modelu (jedno nebo vícerovnicový model, interdependentní popř. rekursivní model) 2. Kvantifikace ekonometrického modelu - zahrnuje metody odhadu hodnot parametrů obsažených v modelu 3. Verifikace ekonometrického modelu - tj. ověření a vyhodnocení, zda jsou získané odhady parametrů v souladu s ekonomickou teorií 4. Interpretace ekonometrického modelu 1.1 Lineární regresní model Standardní lineární regresní model má tvar Y = β 0 X 0 + β 1 X 1 + β 2 X 2 +... + β k X k + u, (1.1.1) kde u je náhodná složka, β j je j-tý regresní koeficient neboli parametr, j =1, 2,..., k. 6

1.1. Lineární regresní model 7 Za předpokladu lineární závislosti mezi vysvětlovanou proměnou Y a k vysvětlujícími proměnnými X 0,X 1,X 2,..., X k lze X 0 specifikovat jako zvláštní (umělou) proměnnou, která nabývá ve všech pozorovaních hodnoty rovné jedné, takže vztah lze psát jako Y = β 0 + β 1 X 1 + β 2 X 2 +... + β k X k + u, (1.1.2) kde β 0 je tzv. absolutní člen neboli úrovňová konstanta. Koeficienty regresní rovnice ani parametry rozdělení náhodné složky nám nejsou známé, musíme se tedy spokojit s jejich odhady, které získáme z výběrových dat. Obvykle známe jeden konečný výběr n pozorování (někdy značené jako délka vzorku T ), z nichž každé obsahuje konkrétní hodnotu vysvětlované proměnné Y a množinu k hodnot vysvětlujících proměnných X 1,X 2,..., X k. Platí-li pro náhodnou složku E(u) = 0, pak střední hodnotu Y jako funkci daných hodnot vysvětlujících proměnných můžeme vyjádřit pomocí deterministického vztahu E(Y )=β 0 + β 1 X 1 + β 2 X 2 +... + β k X k (1.1.3) nazývaného také jako regresní funkce základního souboru. Regresní koeficienty β 0,β 1,β 2,..., β k měří změnu E(Y ) odpovídající jednotkové změně libovolné jedné vysvětlující proměnné, přičemž ostatní vysvětlující proměnné zůstávají neměnné. Platí-li pro základní soubor, z kterého jsme získali náhodný výběr n pozorování, regresní vztah (1.1.2), pak v zápise pro i-té pozorování dostaneme Y i = β 0 + β 1 X i1 + β 2 X i2 +... + β k X ik + u i, i =1, 2,..., n. (1.1.4) Pomocí tzv. výběrové regresní funkce Ŷ i = b 0 + b 1 X i1 + b 2 X i2 +... + b k X ik (1.1.5) a použitím některé z patřičných metod odhadneme z výběru n pozorování parametry regresní rovnice. Veličina Ŷ je vyrovnaná nebo predikovaná hodnota Y, a tak lze její vyrovnané hodnoty pro jednotlivá pozorování psát ve tvaru Ŷ i = b 0 + b 1 X i1 + b 2 X i2 +... + b k X ik, i =1, 2,..., n. (1.1.6)

1.1. Lineární regresní model 8 Rozdíl mezi skutečnou hodnotou Y i a vyrovnanou hodnotou v jednom výběru Ŷi nazýváme i-té reziduum, tedy Y i Ŷi = e i, i =1, 2,..., n (1.1.7) a měřitelná rezidua e i lze chápat jako odhady neznámých náhodných složek u i. Vzhledem k (1.1.6) platí Y i = Ŷi + e i = b 0 + b 1 X i1 + b 2 X i2 +... + b k X ik + e i, i =1, 2,..., n. (1.1.8) Zde je zřejmé, že obecně u i e i, jelikož reziduum je odchylka skutečných hodnot závisle proměnné od příslušných vyrovnaných, zatímco náhodná složka je rozdíl mezi skutečnými hodnotami závisle proměnné a jejími očekávanými nebo průměrnými hodnotami. Pro snadnější znázornění vztahů mezi proměnnými lineárního regresního modelu lze vyjádřit soustavu n rovnic (1.1.4) v maticovém tvaru y = Xβ + u (1.1.9) nebo kde Y 1 1 X 11 X 12... X 1k β 0 u 1 Y 2. = 1 X 21 X 22... X 2k β 1........ + u 2. Y n 1 X n1 X n2... X nk β k u n y... sloupcový vektor n pozorování hodnot vysvětlované (závisle) proměnné X... matice n k pozorování hodnot vvysvětlujících proměnných β... sloupcový vekotr k hodnot neznámých regresních koeficientů u... sloupcový vektor n pozorování hodnot nepozorovatelné náhodné složky Musí platit n>k(v příp. zahrnutí jednotkového vektoru n k) a rozdíl mezi počtem pozorování (nazývané také délkou vzorku) n a počtem odhadovaných parametrů (v příp. lineárního modelu rovného počtu vysvětlujících proměnných) k udává počet stupňů volnosti. Standardní či klasický lineární regresní model je charakterizován těmito vlastnostmi modelových veličin (tzv. Gauss-Markovovy podmínky):

1.2. Metoda nejmenších čtverců 9 1. E(u) =0 Ve všech výběrech mají náhodné složky identické rozdělení a nulovou střední hodnotu. Jsou centrované. 2. E(uu )=σ 2 I n Vyjadřuje diagonalitu kovarianční matice náhodných složek. Prvky na diagonále matice se stopou nσ 2 představují konečný a konstatní rozptyl náhodné složky σ 2, tzv. vlastnost homoskedasticity a nediagonální prvky představují nulové kovariance nebo-li neautokorelovanost náhodných složek. 3. E(X u)=0 Jde o podmínku nekorelovanosti náhodných složek s kteroukoliv z vysvětlujících proměnných. Pokud předpokládáme nestochastické vysvětlující proměnné obsažené v matici X, je tato podmínka vždy splněna. 4. h(x) =k Matice X je plné hodnosti. Neobsahuje žádné perfektně lineárně závislé sloupce pozorování vysvětlujících proměnných. 1.2 Metoda nejmenších čtverců Při splnění výše uvedených předpokladů lineárního regresního modelu můžeme pomocí metody nejmenších čtverců odhadnout vektor neznámých regresních koeficientů a stochastické parametry rozdělení náhodných složek. Vyjdeme-li z (1.1.9), pak pro bodovou odhadovou funkci b platí přičemž současně máme y = Xb + e, ŷ = Xb, kde ŷ je vektor vyrovnaných hodnot vysvětlované proměnné, e =(y Xb) je vektor n reziduí - rozdílů mezi pozorovanými a vyrovnanými hodnotami vysvětlované proměnné. Metoda nejmenších čtverců je založena na minimalizaci výrazu součtu čtverců reziduí min(e e)=(y Xb) (y Xb)=y y 2b Xy + b X Xb. (1.2.1)

1.3. Verifikace lineárního regresního modelu 10 Výraz má být minimální, spočteme proto 1. parciální derivace výrazu a položíme je rovny nule (e e) = 2b Xy + b X Xb =0. (1.2.2) b Úpravami vztahu (1.2.2) získáme soustavu tzv. normálních rovnic X Xb = X y. (1.2.3) Řešení (1.2.3) je jednoznačné vzhledem k předpokladu o plné hodnosti matice vysvětlujících proměnných lineárního regresního modelu h(x) = k, a tedy při zaručené existenci inverzní matice k matici X X dostaneme bodovou odhadovou funkci, minimalizující součet čtverců reziduí: b =(X X) 1 X y. (1.2.4) Vlastnosti odhadové funkce nejmenších čtverců Odhadová funkce prosté metody nejmenších čtverců b odhadovaného vektoru regresních koeficientů β je při splnění Gaussovy-Markovovcýh podmínek pro klasický lineární regresní model: nestranná (nevychýlená), tj. platí Eb = β. vydatná, jestliže V (b ) V (b) 1,kdeb je libovolná jiná odhadová funkce vektoru β, která je lineární v y. Tzn., že rozdíl variančních matic V (b ) V (b) je pozitivně semidefinitní matice v tom smyslu, že b je vydatná v porovnání s jakoukoliv jinou lineární nestrannou odhadovou funkcí vektoru β. konzistentní, platí-lip lim n b = β. normálně rozdělená, tj.b N[β,σ 2 (X X) 1 ], pokud navíc platí, že vektor náhodných složek má rozdělení N(0,σ 2 I n ). 1.3 Verifikace lineárního regresního modelu U bodových odhadů neznámých parametrů standarního lineárního regresního modelu metodou nejmenších čtverců nebylo nutné předpokládat konkrétní rozdělení pravděpodobnosti náhodných složek nebo reziduí. Pro možnost konstrukce intervalových odhadů parametrů a testování jejich statistické významnosti to již neplatí. 1 V (b) =σ 2 (X X) 1, jelikož X X 1 je nestochastická symetrická matice a E(uu )=σ 2 I n.

1.3. Verifikace lineárního regresního modelu 11 Při testování hypotéz resp. konstrukci intervalových odhadů musíme ještě kromě původních 4 předpokladů pro standardní LRM 2 připojit další, 5. předpoklad normality, tedy 5. u N(0,σ 2 I n ) Vektor náhodných složek u má n-rozměrné identické normální rozdělení s nulovým vektorem středních hodnot a kovarianční matici σ 2 I n. K určení odhadu S(b) kovarianční matice V (b) je třeba znát i odhad rozptylu náhodných složek σ 2. Nestrannou odhadovou funkcí rozptylu σ 2 je odhadová statistika s 2 = e e n k = 1 n k (y y b X y). (1.3.1) Protože (X X) 1 je nestochastická symetrická matice a s 2 je nestrannou odhadovou funkcí σ 2, pak nestrannou odhadovou funkcí kovarianční matice odhadů parametrů vypočtenou metodou OLS je odhadová statistika S(b) = s 2 (X X) 1. (1.3.2) Odmocniny odhadů rozptylů na diagonále kovarianční matice S(b) jsou odhady standarních chyb bodových odhadů b j aplatíproně kde x jj je j-tý diagonální prvek matice (X X) 1. s bj = s x jj, j =1, 2,...,k, (1.3.3) Z vlastnosti normálního rozdělení je podíl b j β j σ bj standardizovaná normální proměnná s nulovým průměrem a jednotkovým rozptylem. Testovací statistika t j = b j β j s bj, j =1, 2,...,k (1.3.4) bude mít pro každé j Studentovo t-rozdělení s n k stupni volnosti vhodné i pro malé výběry (n 30). K ověření, zda je odhadnutý model použitelný je třeba zkoumat statistickou významnost jak jednotlivých odhadů parametrů tak celého modelu na nějaké hladině spolehlivosti. Ve všech dále prezentovaných příkladech jsem použila obvyklou hladinu významnosti 5% (α =0, 05). 2 Lineární regresní model

1.3. Verifikace lineárního regresního modelu 12 Odhad parametru prohlásíme za statisticky významný, pokud je s pravděpodobností 1 α hodnota skutečného parametru rovna 0 a vypočtený odhad tohoto parametru je ovlivněn spíše náhodnými vlivy než závislostí mezi proměnnými v modelu. Proto se často testuje hypotéza, že vybraná vysvětlující proměnná k níž přísluší regresní parametr β j vyjadřuje nulový vliv na vysvětlovanou proměnnou. Pro j-tý parametr získáme z (1.3.4) při formulaci nulové hypotézy β j = 0 zjednodušenou testovací statistiku t j = b j s bj, j =1, 2,...,k. (1.3.5) Na základě tohoto poměru posoudíme statistickou významnost parametru tak, že nulovou hypotézu β j = 0 akceptujeme, jestliže t j tα pro hladinu spolehlivosti α 2 a n k stupňů volnosti. Nebo naopak s pravděpodobností 100(1 α)% prohlásíme bodový odhad b j za statisticky nevýznamný. V tabulkách s odhady parametrů v jednotlivých příkladech uvedených v následujících kapitolách to znamená, aby hodnota ve sloupci významnost byla nižší než 0, 05. Statistická významnost modelu jako celku je postavena na zjištění statistické významnosti koeficientu determinace R 2. Obsahuje-li regresní funkce úrovňovou konstantu, definujeme koeficient determinace vztahem R 2 =1 e e y y = ŷ ŷ y y = b X Xb y y (1.3.6) a můžeme ho interpretovat jako podíl součtu čtverců vyrovnaných (predikovaných) hodnot a součtu čtverců pozorovaných hodnot. Koeficient determinace nabývá hodnoty mezi 0 a 1 a jde o nejpoužívanější indikátor ukazující na vhodnost použitého modelu. Byla-li by všechna rezidua nulová, bude R 2 = 1 a regresní model vysvětlí všechny změny, tedy 100% v chování vysvětlované proměnné. R 2 =0znamená, že model vysvětluje 0% variabilitu vysvětlované proměnné. Vhodně zvolený model bude mít hodnotu koeficientu determinace blízkou jedné. Posledním testovacím kritériem je Durbin-Watsonův koeficient d. Nazákladě výpočtu jeho hodnoty nám potvrdí nebo vyvrátí přítomnost autokorelace (závislost) náhodných složek. Hodnota Durbin-Watsonova koeficientu blízká číslu 2 znamená neautokorelovanost reziduí a spočteme ji pomocí vztahu d = n i=2 (e i e i 1 ) 2 n. (1.3.7) i=1 e2 i

Kapitola 2 Umělé proměnné v regresních modelech Umělé proměnné představují v ekonometrických modelech ty proměnné, které 1. jsou významem natolik vlivné, že s ohledem na vztah k vysvětlované proměnné lze předpokládat jejich vliv na její chování, 2. nelze je přímo ocenit hodnotou, která by vyjadřovala nějaký měřitelný aspekt jejich obsahu. Jedná se především o veličiny kvalitativního nebo diskrétního charakteru. Nejčastěji jsou to proměnné sociální, demografické a podobné povahy. V těchto případech se nejčastěji bere v úvahu tzv. uměle-proměnná metoda. Zahrnutí umělých proměnných do modelu hraje svou roli a zpravidla jsou členěny do vzájemně se vylučujících skupin, kategorií nebo intervalů, podle hodnot, které nabývají. Umělé proměnné považujeme za takové proměnné, které vytváříme za účelem transformace nejen kvalitativních, ale i kvantitativních veličin do správně zkonstruované klasifikační stupnice. Implicitním předpokladem je, že se regresní přímky pro různé skupiny liší jen v bodě, v němž protínají svislou osu, ale mají stejný sklon (obr. 2.1). 2.1 Dichotomické umělé proměnné Nejčastější klasifikační stupnicí je nula-jednotková, která obsahuje dichotomické neboli binární umělé proměnné. Tyto mohou nabývat pouze dvou možných hodnot, nula a jedna. Např. muž/žena, rezident/nerezident, pracující/student apod. Skupinu, která je hodnocena nulou a v regresi nevystupuje (je užita jako srovnávací hladina pro vyjádření relativního poměru ostatních skupin), bereme 13

2.1. Dichotomické umělé proměnné 14 Y Obrázek 2.1: Regresní přímky X jako základ, se kterým se ostatní skupiny porovnávají. Při hodnocení jedničkou se umělá proměnná s tímto kvalitativním znakem v regresi explicitně uplatní, tzn. značí přítomnost v regresi. Poznámka 2.1.1. Model, který obsahuje pouze nula-jednotkové vysvětlující proměnné nazýváme také model analýzy rozptylu (analysis-of-variance (AOV) model). Na následujícím příkladu si ukážeme závislost příjmu na kvalitativním vysvětlujícím faktoru - pohlaví zaměstnance: kde Y i = β 0 + β 1 X i + u i, i =1, 2,..., 20, (2.1.1) Y i X i představuje příjem i-tého zaměstnance, = 1 pro zaměstnankyně, = 0 jinak (v našem případě pro zaměstnance), u i je náhodná složka. Nebo, vyjádříme-li parametry β 0 a β 1 v podmíněných středních hodnotách pozorovaných veličin, máme E(Y i X i =0)=β 0...pro příjem mužů, E(Y i X i =1)=β 0 + β 1...pro příjem žen.

2.1. Dichotomické umělé proměnné 15 ID pohlavi prijem ID pohlavi prijem 1 1 9 750,00 11 0 11 550,00 2 1 9 750,00 12 0 12 000,00 3 1 10 200,00 13 0 13 900,00 4 1 10 200,00 14 0 14 250,00 5 1 10 950,00 15 0 14 550,00 6 1 10 950,00 16 0 15 000,00 7 1 11 250,00 17 0 15 600,00 8 1 13 200,00 18 0 15 750,00 9 1 13 200,00 19 0 16 050,00 10 1 15 500,00 20 0 16 050,00 1.7 x 104 prijem mu i prijem eny 1.6 1.5 1.4 1.3 1.2 1.1 1 0.9 1 2 3 4 5 6 7 8 9 10 Obrázek 2.2: hypotetická data, tabulka + graficky koeficient determinace 0.4452 s 2 3063791.6667 Durbin-Watsonův koeficient 1.1352 proměnná koeficient t-statistika významnost konstanta 14470.000000 26.142006 0.000000 pohlavi -2975.000000-3.800514 0.001310 Tabulka 2.1: odhadnuté koeficienty regresní rovnice (2.1) Na obr. 2.2 máme znázorněna hypotetická data o příjmech 10 zaměstnanců podle pohlaví. Výsledné hodnoty odhadu parametrů rovnice (2.1.1) metodou nejmenších čtverců (OLS 1 ) z tabulky (2.1) přepíšeme zpět do rovnice: Ŷ i = 14470 + ( 2975X i1 ), i =1, 2,..., 20, (2.1.2) čímž zjistíme, že odhad středního příjmu je u mužů 14470 (= b 0 ) a u žen 11495 (= b 0 + b 1 ). Jestliže jsme testovali nulovou hypotézu, že v příjmech neexistuje diskriminace mužů a žen (H 0 : β 1 = 0), pak tuto hypotézu zamítneme na základě zřetelné statistické významnosti koeficientu b 1. 2 Nízký koeficient determinace by mohl poukazovat na nevhodnost použitého modelu, což může být vyvoláno zahrnutím pouze umělé proměnné do modelu. Nízká hodnota Durbin-Watsonova koeficientu v porovnání s dalšími příklady je způsobena přijatým uspořádání dat ve vzorku. Graficky znázorněná regrese (2.1.2) je zobrazena na obrázku 2.3 - pro tento účel byl vzorek dat předem seřazen. 1 Ordinary Least Squares Method. 2 Na hladině významnosti 5% (α =0, 05), tj. s pravděpodobností (1 α).

2.2. Kategoriální umělé proměnné 16 p ííjem muži p ííjem ženy Obrázek 2.3: Regresní přímky rovnice (2.1.2) 2.2 Kategoriální umělé proměnné Klasifikační stupnice tvořená více než dvěma kombinacemi číselných znaků, ale s omezeným počtem přípustných hodnot, obsahuje kategoriální umělé proměnné. Zde je nutno zkoumat předem analytický tvar skutečné závislosti vysvětlované proměnné na vysvětlující umělé proměnné, protože hodnoty odhadnutých parametrů mohou být citlivé na použitou klasifikační stupnici. Následující příklad je ukázkou modelu, který obsahuje jako umělou proměnnou věk zaměstnance. Věkové skupiny byly rozděleny do této klasifikační stupnice: 1. skupina do 30 let 2. skupina od 31 let do 45 let 3. skupina nad 46 let Opět definujeme funkci příjmu kde Y i = α 0 + α 1 D i1 + α 2 D i2 + u i, i =1, 2,..., 12, (2.2.1) Y i představuje příjem i-tého zaměstnance, D i1 = 1 pro skupinu 2, = 0 ostatní, D i2 = 1 pro skupinu 3, = 0 ostatní, u i je náhodná složka.

2.2. Kategoriální umělé proměnné 17 Pro podmíněné střední hodnoty platí E(Y i D i1 =0,D i2 =0)=α 0, E(Y i D i1 =1,D i2 =0)=α 0 + α 1, E(Y i D i1 =0,D i2 =1)=α 0 + α 2. Úrovňová konstanta α 0 představuje příjem zaměstnance ve věku do 30 let, parametry α 1 pak rozdíl mezi příjmy zaměstnanců 1. a 2. skupiny a α 2 rozdíl v příjmech osob 1. a 3. skupiny. Hypotetická data o příjmech a věku zaměstnanců: ID Prijem Vek skup. 1 skup. 2 skup. 3 1 29950 23 1 0 0 2 30000 26 1 0 0 3 30300 28 1 0 0 4 31200 29 1 0 0 5 30100 41 0 1 0 6 31250 43 0 1 0 7 31500 44 0 1 0 8 32200 45 0 1 0 9 30000 54 0 0 1 10 31100 54 0 0 1 11 31800 54 0 0 1 12 32250 55 0 0 1 Opět pomocí OLS spočteme odhady parametrů (viz tabulka 2.2). Kromě konstanty není žádný koeficient statisticky významný. Lze tedy usuzovat, že přestože s přibývajícím věkem příjem zaměstnace mírně roste, nemá samotný věk zaměstnance vliv na jeho příjem. Koeficient determinace je opět velice nízký, ale hodnota Durbin-Watsonova koeficientu nenaznačuje autokorelovanost reziduí. 3 koeficient determinace 0.2646 s 2 686180.5556 Durbin-Watsonův koeficient 2.2072 proměnná koeficient t-statistika významnost konstanta 30362.500000 73.307485 0.000000 2. skupina 900.000000 1.536520 0.158787 3. skupina 925.000000 1.579201 0.148747 Tabulka 2.2: odhadnuté koeficienty regresní rovnice (2.2.1) 3 U dat, která nepochází ze vzorku časových řad, není zpravidla třeba autokorelovanost reziduí samostatně vyšetřovat. Není totiž důvod k uspořádání pozorovaných hodnot.

2.2. Kategoriální umělé proměnné 18 3.25 x 104 OLS Actual vs. Predicted 3.2 3.15 3.1 3.05 3 Actual Predicted 2.95 0 2 4 6 8 10 12 1000 Residuals 500 0 500 1000 1500 0 2 4 6 8 10 12 Obrázek 2.4: Graf regresní rovnice (2.2.1) Nyní zahrneme do regresního modelu kromě věkového faktoru také kvantitativní proměnnou udávající délku praxe v měsících. Poznámka 2.2.1. Model obsahující jak kvalitativní (umělé) tak kvantitativní vysvětlující proměné nazýváme též model analýzy kovariance (analysis-ofcovariance (ACOV) models). Funkci příjmu pak definujeme takto: kde Y i = α 0 + α 1 D i1 + α 2 D i2 + β 1 X i + u i, i =1, 2,..., 25, (2.2.2) Y i D i1 příjemi-tého zaměstnance, = 1 pro 2. věkovou skupinu, = 0 ostatní, D i2 = 1 pro 3. věkovou skupinu, = 0 ostatní,

2.2. Kategoriální umělé proměnné 19 X i u i délka praxe v měsících, náhodná složka Věkové skupiny jsou rozděleny jako v předchozím příkladu a 1. věková skupina je zde chápána jako základní. Podmíněná střední hodnota bude vyjádřena ve tvaru E(Y i D i1 =0,D i2 =0,X i )=α 0 + β 1 X i. Hypotetická data o příjmech, věku a zkušenostech zaměstnanců pro regresi (2.2.2): ID prijem vek skup. 1 skup. 2 skup. 3 m zkus. 1 27480 29 1 0 0 7 2 27480 39 0 1 0 8 3 27480 46 0 0 1 9 4 28740 30 1 0 0 10 5 28740 28 1 0 0 13 6 29490 31 0 1 0 18 7 30000 31 0 1 0 23 8 31250 28 1 0 0 26 9 31500 31 0 1 0 27 10 31980 28 1 0 0 35 11 32010 30 1 0 0 45 12 32490 34 0 1 0 54 13 33000 29 1 0 0 62 14 33000 31 0 1 0 68 15 33000 32 0 1 0 74 16 33750 30 1 0 0 75 17 34980 39 0 1 0 81 18 35010 34 0 1 0 96 19 35040 36 0 1 0 120 20 36750 46 0 0 1 129 21 39990 47 0 0 1 156 22 42510 34 0 1 0 175 23 43500 46 0 0 1 199 24 45000 39 0 1 0 199 25 79980 49 0 0 1 221 Podle tabulky 2.3 obsahující odhady koeficientů regresní rovnice (2.2.2) je kromě úrovňové konstanty statisticky významný ještě koeficient u proměnné zkušenosti. Lze tedy říci, že výše příjmu zaměstnance není závislá na jeho stáří, ale závisí především na jeho získaných zkušenostech z praxe předchozích let.

2.3. Sezónní (umělé) proměnné 20 koeficient determinace 0.6624 s 2 42507613.1372 Durbin-Watsonův koeficient 1.0979 proměnná koeficient t-statistika významnost konstanta 26766.238961 10.934118 0.000000 2. skupina -2088.535444-0.660179 0.516315 3. skupina 1606.330230 0.353047 0.727572 zkusenosti 120.220104 4.978555 0.000063 Tabulka 2.3: odhadnuté koeficienty regresní rovnice (2.2.2) 8 x 104 OLS Actual vs. Predicted 7 Actual Predicted 6 5 4 3 2 0 5 10 15 20 25 3 x 104 Residuals 2 1 0 1 0 5 10 15 20 25 Obrázek 2.5: Graf pro regresní rovnici (2.2.2) 2.3 Sezónní (umělé) proměnné Zvláštním typem umělých proměnných jsou sezónní proměnné. Ty se často vyskytují v ekonometrické analýze časových řad k vyrovnání sezónních vlivů. Výkyvy způsobené sezónností mohou být např. období vánočních svátků (zvýšené spotřební výdaje domácností), letní období (růst zaměstnanosti v některých odvětvích) apod. Působení sezónních faktorů je vhodné z časových řad vyloučit nebo omezit ještě před odhadem parametrů.

2.3. Sezónní (umělé) proměnné 21 Uplatňují se v podstatě dva základní postupy k eliminaci sezónních vlivů. V prvním z nich použitím postupného vyhlazování pomocí klouzavých průměrů, nebo pomocí harmonické analýzy se sezónnost odstraňuje ještě před vlastní regresní analýzou. Druhý, zde popisovaný přístup naopak užívá k vystižení sezónnosti časové řady vysvětlované proměnné simultánně s dalšími regresory právě sezónní umělé proměnné. Přínosem zde může být především získání vyšší přesnosti odhadů. Pro znázornění na jednoduchém příkladu jsem použila reálná data o hrubých mzdách zaměstnanců za r. 2007 jedné nejmenované reklamní agentury. Tato agentura vyplácí 2x do roka mimořádné odměny v červnových a prosincových mzdách. K odhadu parametrů použijeme metodu umělých proměnných pro jednotlivá čtvrtletí. Regresní rovnice bude mít následující tvar: kde Y i = α 0 + α 1 D i1 + α 2 D i2 + α 3 D i3 + u i, i =1, 2,..., 12, (2.3.1) Y i D i1 objem hrubých mezd zaměstnanců, = 1 pro 2. čtvrtletí, = 0 ostatní, D i2 = 1 pro 3. čtvrtletí, = 0 ostatní, D i3 u i = 1 pro 4. čtvrtletí, náhodná složka. 1. čtvrtletí bylo zvoleno jako základní. Statistická významnost odhadnutých parametrů α 1,α 2,α 3 nám ukáže vliv sezónnosti na objem hrubých mezd v jednotlivých čtvrtletích vůči základnímu. V našem případě tedy předpokládáme statisticky významný koeficient α 1 a α 3.

2.4. Shrnutí 22 Data pro regresní rovnici (2.3.1): období hrubé mzdy Q1 Q2 Q3 Q4 1 317 288 1 0 0 0 2 347 932 1 0 0 0 3 362 712 1 0 0 0 4 341 906 0 1 0 0 5 339 085 0 1 0 0 6 406 536 0 1 0 0 7 326 219 0 0 1 0 8 352 289 0 0 1 0 9 341 743 0 0 1 0 10 375 999 0 0 0 1 11 416 729 0 0 0 1 12 469 208 0 0 0 1 koeficient determinace 0.5925 s 2 1087009536.1667 Durbin-Watsonův koeficient 2.0778 proměnná koeficient t-statistika významnost konstanta 26766.238961 18.000604 0.000000 2. ctvrtleti 19865.000000 0.737934 0.481637 3. ctvrtleti -2560.333333-0.095110 0.926567 4. ctvrtleti 78001.333333 2.897550 0.019967 Tabulka 2.4: odhadnuté koeficienty regresní rovnice (2.3.1) Hodnoty odhadnutých koeficientů spočtené opět metodou OLS, viz tabulka 2.4, ukazují na statistickou významnost kromě úrovňové konstanty pouze u koeficientu pro 4. čtvrtletí. Na závěr bychom tedy mohli říct, že vyplacené mimořádné odměny v měsíci červnu (zahrnuté do 2. čtvrtletí) nebyly oproti prosincovým odměnám (ve 4. čtvrtletí) dostatečně vysoké, aby se projevily signifikantním výkyvem ve srovnání se základním obdobím. 2.4 Shrnutí Zahrnutí umělých proměnných do ekonometrického modelu má některá nepsaná, ale zároveň nutně respektovaná pravidla. Řídí se jistými zásadami a postupy. Jedná se především o přiřazení hodnot z klasifikační stupnice jednotlivým proměnným, ať už diskrétním, či kategoriálním. Je zřejmé, že nezáleží na tom, zda ženy označíme

2.4. Shrnutí 23 4.5 5 x 105 OLS Actual vs. Predicted Actual Predicted 4 3.5 3 0 2 4 6 8 10 12 5 x 104 Residuals 0 5 0 2 4 6 8 10 12 Obrázek 2.6: Graf pro regresní rovnici (2.3.1) jedničkou a muže nulou nebo naopak. Členění stupnice by mělo vycházet především z potřeb analýzy. Zajímají nás rozdíly mezi jednotlivými skupinami nikoliv uvnitř jedné skupiny. Dále je vhodné na základě ekonomické teorie zjistit, zda je klasifikační stupnice vhodně zvolena jak v rozsahu, tak ve funkční závislosti vysvětlované proměnné na všech, i umělých vysvětlujích proměnných. Do regrese vždy zahrnujeme pouze m 1klasifikacíprom obměn nebo kategorií, kterých velična nabývá. Jsou-li v modelu dvě nebo více diskrétních nebo kvalitativních vysvětlujících proměnných, pak z každého systému odpovídajících umělých proměnných jednu obměnu nebo kategorii v regresi vynecháme.

Kapitola 3 Typové příklady obsahující umělé proměnné 3.1 Analýza typových příkladů uváděných v literatuře 3.1.1 Náklady na koupi domu Na úvod této kapitoly si ukážeme 2 učebnicové příklady. První z nich je převzat z českého překladu monografie Arthura S. Goldbergera - Teorie ekonometrie, část II, kap. 5, str. 292 294. Na vzorku výběru 117 pozorovaných domácností, které v r. 1957 zakoupily dům, bylo testováno hned několik funkčních závislostí. Vysvětlovanou proměnnou zde představuje náklad na koupi domu v dolarech s označením Y. Vysvětlující faktory tvoří v regresi tyto proměnné: x 1 = velikost příjmu v dolarech, x 2 = x 2 1, x 3 = věk v letech, x 4 = x 2 3, x 5 = 1 svobodný, 0 ve všech zbývajících případech, x 6 = 1 ženatý méně než 1 rok, 0 ve všech zbývajících případech (x 5 = x 6 =0, je-li ženatý více než 1 rok), 24

3.1. Analýza typových příkladů uváděných v literatuře 25 x 7 x 8 x 9 x 10 = 1 vedoucí pracovník, 0 ve všech zbývajících případech, = 1 úředník, 0 ve všech zbývajících případech, = 1 dělník, 0 ve všech zbývajících případech (x 7 = x 8 = x 9 = 0, je-li nezaměstnaný či v důchodu), = 1 středoškolské vzdělání, 0 ve všech zbývajících případech, x 11 = 1 vysokošlkolské vzdělání, 0 ve všech zbývajících případech (x 10 = x 11 =0, skončilo-li vzdělání před ukončením střední školy), x 12 x 13 x 14 x 15 x 16 x 17 x 18 x 19 =1běloch,0barevný, = 1 žena, 0 muž, = 1 bydlení v severní části USA, 0 ve všech zbývajících případech, = 1 bydlení v jižních státech USA, 0 ve všech zbývajících případech, = 1 bydlení v západních státech USA, 0 ve všech zbývajících případech, = 1 nedošlo-li ke změně příjmu vzhledem k předchozímu roku, 0 ve všech zbývajících případech, = 1 došlo-li k růstu příjmu v porovnání s předchozím rokem, 0 ve všech zbývajících případech (x 17 = x 18 = 0, došlo-li k poklesu příjmu ve srovnání s předchozím rokem), = 1 vlastnil-li kupující na počátku roku dům, 0 v opačném případě. Regresní rovnice o vlivu nákladů na bydlení s již dosazenými výsledky odhadnutých parametrů: Ŷ = 3715 + 2, 10x 1 0, 000046x 2 142x 3 +4, 5x 4 (0, 65) (0, 000022) (487) (5, 7) 3487x 5 496x 6 + 4119x 7 + 556x 8 (3994) (4831) (3118) (2948) 953x 9 + 1116x 10 + 463x 11 + 928x 12 (4740) (2147) (2881) (4507) 830x 13 728x 14 2668x 15 4797x 16 (5733) (2497) (2434) (2711) 2703x 17 4345x 18 37x 19 (2619) (2185) (1972)

3.1. Analýza typových příkladů uváděných v literatuře 26 Uvedený model obsahuje jak kvantitativní, tak kvalitativní proměnné. Dále také obsahuje proměnné v druhých mocninách u příjmu a věku. Pro lineární model nepříliš tradiční postup. Nejdříve se podíváme na kvalitativní proměnné. Např. očekávaná hodnota domu je pro svobodného o 3487 dolarů nižší než pro více než rok ženatého za předpokladu, že všechny zbývající proměnné jsou stejné. Obdobně bych si dovolila vyvodit, že nejvyšší očekávaná hodnota nákladů na koupi domu bude pro muže bílé pleti se středoškolským vzděláním, pracujícím ve vedoucí funkci, ženatého více než 1 rok, žijícího na východě USA, jenž vlastní dům nemá a ještě mu oproti předchozímu roku klesl příjem. Podíváme-li se ještě na uvedené kvantitativní proměnné, pak očekávaná hodnota domu roste s příjmem a klesá s věkem. Možná v důsledku životních preferencí obdobně jako s jídlem roste chuť s vyšším příjmem si můžeme dovolit větší komfort a v mládí více tendujeme k luxusnějšímu bydlení s větší ochotou se stěhovat. Jaký vliv může mít zahrnutí kvadrátů příjmu a věku do regresního vztahu? Tyto kvadratické členy vystupují jako přídavné nezávisle proměnné a mohou posloužit k tomu, aby byla vyjádřena hypotetická nelineární funkce. Ačkoli je přesný lineární vztah v praktických příkladech nepravděpodobný, mezi ekonomickými jevy existuje vzájemná závislost, která může být příčinou přibližné lineární závislosti mezi vysvětlujícími proměnnými v ekonometrickém modelu, tzv. multikolinearity. Ta vede ke vzniku velkých, a tedy nežádoucích směrodatných odchylek regresních koeficientů. Pokud bych měla zvážit důvod zahrnutí nebo nezahrnutí nezávisle proměnných (druhých mocnin příjmů a věku) do regresní rovnice o vlivu nákladů na bydlení, testovala bych statistickou významnost odhadnutých koeficitentů u těchto proměnných. Jestliže známe směrodatné odchylky (hodnoty uvedené v závorkách pod jednotlivými odhady parametrů regresní rovnice), pak při počtu pozorování (117) a počtu parametrů (20) na 5% hladině významnosti je proměnná x 2 těsně statisticky významná 1 (t 2 = 2, 09) 2 a proměnná x 4 je statisticky nevýznamná (t 4 =0, 79). 3 Lze teď uvažovat, jakou interpretaci má proměnná x 2 s nepřímo úměrným vztahem k vysvětlované proměnné. Snad že náklady na koupi domu nejsou neomezené a od určité výše příjmu klesají. V relaci s proměnnou x 1 to znamená, že s růstem 1 Je-li n k>30 můžeme ingorovat počet stupňů volnosti a položit pro 5% hladinu významnosti hodnotu t α = t 2 0,025 = 2. Pak testujeme nulovou hypotézu β j =0tak,žepro t j > 2ji odmítneme a prohlásíme příslušný koeficient za statisticky nevýznamný. Pro j-tý parametr platí t j = bj s bj. Pak výběrová hodnota t j > 2, když bodový odhad b j > 2s bj. 2 Hodnota t-statistiky proměnné x 2. 3 Hodnota t-statistiky proměnné x 4.

3.1. Analýza typových příkladů uváděných v literatuře 27 příjmů výdaje na dům rostou, ale pomaleji než lineárně (s decelerujícím tempem růstu). Obdobný význam má relace mezi proměnnými x 3 a x 4. S věkem výdaje klesají, ale méně než úměrně. 3.1.2 Lodní nehody Druhý, pro osobu ze střední Evropy méně typický příklad je převzat z publikace Econometric Analysis od Williama Greena, kap. 8, str. 320. Na datech o lodních nehodách byl sledován počet nahrazených lodí v důsledku nehod v letech 1960 1979. Sledované obodbí je rozděleno na 4 podobdobí a lodě jsou rozděleny do 5 kategorií podle data, kdy byly vyrobeny. Data o lodních nehodách: Typ Období 1960-64 1965-69 1970-74 1975-79 A 0 4 18 11 B 29 53 44 18 C 1 1 2 1 D 0 0 11 4 E 0 7 12 1 Zápis do regresní rovnice zde vypadá následovně: Y i = α 0 + α 1 D i1 + α 2 D i2 + α 3 D i3 + α 4 D i4 (3.1.1) + β 1 X i1 + β 2 X i2 + β 3 X i3 + β 4 X i4 + u i, kde Y i D i1 D i2 D i3 D i4 X i1 počet nehod (nahrazených lodí), = 1 pro typ lodi B, 0 pro ostatní, = 1 pro typ lodi C, 0 pro ostatní, = 1 pro typ lodi D, 0 pro ostatní, = 1 pro typ lodi E, 0 pro ostatní = 1 pro období stavby lodě 1965 1969, 0 jinak,

3.1. Analýza typových příkladů uváděných v literatuře 28 X i2 X i3 u i = 1 pro období stavby lodě 1970 1974, 0 jinak, = 1 pro období stavby lodě 1975 1979, 0 jinak, náhodná složka. koeficient determinace 0.8482 s 2 55.0750 Durbin-Watsonův koeficient 2.3163 proměnná koeficient t-statistika významnost konstanta 3.400000 0.724389 0.482712 Typ B 27.750000 5.288113 0.000192 Typ C -7.000000-1.333938 0.206988 Typ D -4.500000-0.857532 0.407952 Typ E -3.250000-0.619329 0.547279 1965-69 7.000000 1.491389 0.161673 1970-74 11.400000 2.428833 0.031800 1975-79 1.000000 0.213056 0.834860 Tabulka 3.1: odhadnuté koeficienty regresní rovnice o lodních nehodách 60 50 40 30 20 10 OLS Actual vs. Predicted Actual Predicted 0 0 2 4 6 8 10 12 14 16 18 20 40 Residuals 30 20 10 0 10 20 0 2 4 6 8 10 12 14 16 18 20 Obrázek 3.1: Graf pro regresní rovnici o lodních nehodách

3.2. Některé další příklady implementace umělých proměnných 29 Regrese obsahuje pouze umělé proměnné, jedná se tedy o příklad analýzy rozptylu. Podíváme-li se na výsledky odhadnutých koeficientů, zjistíme, že nejvíce nehod bylo zaznamenáno u lodi typu B a v období let 1970 1974. Tyto proměnné jsou oproti ostatním vysvětlujícím proměnným jako jediné statisticky významné. Koeficient determinace R 2 má celkem vysokou vypovídací hodnotu (téměř 85%) a Durbin-Watsonův koeficient nenaznačuje existenci kladné autokorelace. 3.2 Některé další příklady implementace umělých proměnných Převážná většina datových souborů v následujících příkladech je převzata z elektronické verze publikace Econometric analysis Williama Greena, Prentice Hall, 6th Edition, 2008 (http://pages.stern.nyu.edu/ wgreene). 3.2.1 Rodinné příjmy - studium důchodové dynamiky Datový soubor o 753 pozorováních (viz příloha na přiloženém datovém nosiči CD) obsahuje tyto proměnné: LF P = 1 pro pracující ženy v r. 1975, 0 jinak, WHRS odpracované hodiny manželky v r. 1975, KL6 počet dětí v rodině mlatších 6 let, K618 počet dětí v rodině mezi 6 a 18 roky, WA věk manželky, WE počet let vzdělání manželky, WW průměrný hodinový výdělek manželky v dolarech v r. 1975, RP W G mzda manželky oznámená při pohovoru v r. 1976 (jiná než odhadovaná mzda v r. 1975). Pokud chceme použít zúžený vzorek s touto mzdou, musíme vybrat r. 1975. V případě pracovníků, kteří mají LFP = 1, vybereme jen ženy s nenulovým RPWG. Jen 325 žen pracovalo v r. 1975 a mělo nenulový RPWG v r. 1976. HHRS odpracované hodiny manžela v r. 1975, HA věk manžela,

3.2. Některé další příklady implementace umělých proměnných 30 HE počet let vzdělání manžela, HW mzda manžela v dolarech v r. 1975, FAMINC rodinný příjem v r. 1975, MTR mezní (federální) daňová sazba týkající se příjmů manželky a je odvozená z oficiálních federálních daňových tabulek USA (státní a místní/regionální daně jsou vyňaty). Zdanitelný příjem, ze kterého se vypočítá tato daňová sazba, zahrnuje sociální pojištění, pokud se vztahuje na manželku. WMED vzdělání matky manželky v letech, WFED vzdělání otce manželky v letech, UN míra nezaměstnanosti v místě bydliště v procentních bodech, CIT = 1 pro velkoměšťáky, 0 jinak, AX délka předchozí praxe manželky. Jestliže bychom nebrali v úvahu poznámky u porměnné RP W G a do funkce příjmu rodiny žijící v USA v r. 1975 zahrnuli bez výjimky všechny ostatní vysvětlující faktory, bude regresní rovnice ve tvaru FAMINC = β 0 + β 1 LF P + β 2 WHRS + β 3 KL6+β 4 K618 + β 5 WA (3.2.1) + β 6 WE + β 7 WW + β 8 RP W G + β 9 HHRS + β 10 HA + β 11 HE + β 12 HW + β 13 MTR + β 14 WMED + β 15 WFED+ β 16 UN + β 17 CIT + β 18 AX + u. a výsledné hodnoty odhadů parametrů z regrese (3.2.1) metodou OLS uvádí tabulka 3.2. Koeficient determinace je vysoký a Durbin-Watsonův koeficient nevykazuje známky kladné autokorelace. Celkově můžeme ekonometrický model příjmové funkce zhodnotit jako vhodně zvolený. Mezi ty odhady parametrů kvantitativních proměnných, které jsou v přímé úměře s příjmem domácnosti a lze říci, že jsou z ekonomického hlediska v souladu s očekáváním, patří tyto proměnné: - WHRS,KL6,K618,WA,WW,HHRS,HW ajsounavíc statisticky významné, - WE,RPWG,HA,WMED, ale nemají postačující statistickou průkaznost.

3.2. Některé další příklady implementace umělých proměnných 31 koeficient determinace 0.8224 s 2 27033236.2955 Durbin-Watsonův koeficient 2.0288 proměnná koeficient t-statistika významnost konstanta 71820.757222 14.447745 0.000000 LFP -1664.853862-2.399217 0.016679 WHRS 1.359080 3.608299 0.000329 KL6 973.981025 2.257820 0.024250 K618 998.890757 6.033894 0.000000 WA 106.883956 1.963783 0.049932 WE 160.480664 1.333831 0.182673 WW 189.569584 2.126159 0.033823 RPWG 147.527638 1.221320 0.222357 HHRS 2.106547 5.176441 0.000000 HA 23.110853 0.440850 0.659452 HE -207.249290-2.387602 0.017211 HW 807.904705 9.278176 0.000000 MTR -97118.699144-21.389406 0.000000 WMED 3.264634 0.045097 0.964043 WFED -8.161781-0.119307 0.905064 UN -30.147905-0.476729 0.633697 CIT -36.274949-0.083982 0.933094 AX -60.649843-2.081436 0.037740 Tabulka 3.2: odhadnuté koeficienty regresní rovnice o příjmech domácností (3.2.1) Odhady koeficientů kvantitativních proměnných HE,MTR,AX jsou statisticky významné a mají protichůdný vliv na příjem domácnosti. Jestliže s růstem předchozí délkou praxe manželky (AX) klesá rodinný příjem, pak je možné, že ženy jsou na trhu práce méně flexibilní, méně často mění svoje zaměstnání a zůstávají za cenu nerostoucího příjmu v původním zaměstnání. S rostoucím počtem let vzdělání u mužů (HE) bych spíše očekávala také růst příjmů. U proměnné federální daňové sazby (MTR), i když má v regresi (3.2.1) podle hodnoty odhadu koeficientu značný vliv, se domnívám, že může být ovlivněna proměnnou RP W G. Tu bychom měli v datovém vzorku filtrovat 4 podle poznámky ve výčtu pozorovaných proměnných. 4 Myšleno zúžit.

3.2. Některé další příklady implementace umělých proměnných 32 Podíváme-li se na 2 umělé proměnné obsažené v regresi, pak o něco málo vyšší příjmy vykazují rodiny, v nichž žena ve sledovaném roce 1975 nepracovala (proměnná LF P ). Vliv místa bydliště (CIT) není statisticky významný, ale naznačuje (proti očekávání) vyšší příjmy pro rodiny bydlící mimo město. 10 x OLS Actual vs. Predicted 104 8 6 4 2 0 Actual Predicted 2 0 100 200 300 400 500 600 700 800 4 3 2 1 0 1 5 x 104 Residuals 2 0 100 200 300 400 500 600 700 800 Obrázek 3.2: Graf pro regresní rovnici (3.2.1) Nyní zkusíme filtrovat již zmíněnou proměnnou RP W G. Dostaneme 326 pozorování (o jedno více, než se uvádí v popisu proměnných). K aplikaci dat do regresního modelu použijeme upravenou rovnici (3.2.1), ve které vynecháme proměnnou LF P. Bez toho bychom se dostali blízko singulární matici a hrozil by vznik multikolinearity. FAMINC = β 0 + β 1 WHRS + β 2 KL6+β 3 K618 + β 4 WA+ β 5 WE (3.2.2) + β 6 WW + β 7 RP W G + β 8 HHRS + β 9 HA + β 10 HE + β 11 HW + β 12 MTR + β 13 WMED+ β 14 WFED + β 15 UN + β 16 CIT + β 17 AX + u. Získané hodnoty odhadů parametrů regresní rovnice (3.2.2) jsou zaznamenané v tabulce 3.3.

3.2. Některé další příklady implementace umělých proměnných 33 koeficient determinace 0.8034 s 2 26454353.8449 Durbin-Watsonův koeficient 1.9643 proměnná koeficient t-statistika významnost konstanta 92773.042379 9.892574 0.000000 WHRS 1.051986 2.028285 0.043391 KL6 1031.761689 1.197697 0.231956 K618 640.462440 2.418031 0.016185 WA 221.645410 2.464304 0.014274 WE -50.926786-0.281507 0.778511 WW 203.715545 1.554357 0.121126 RPWG 381.551547 1.738675 0.083091 HHRS 0.500160 0.681638 0.495980 HA -62.049894-0.767206 0.443547 HE -169.897545-1.341072 0.180885 HW 490.767776 2.820780 0.005102 MTR -116815.992086-13.627781 0.000000 WMED -60.580186-0.541808 0.588342 WFED -18.714961-0.174537 0.861558 UN -105.304222-1.062646 0.288775 CIT -872.326088-1.272386 0.204196 AX -128.268079-2.616943 0.009310 Tabulka 3.3: odhadnuté koeficienty upravené regresní rovnice o (3.2.2) Většina hodnot odhadnutých parametrů zůstala ve stejném vztahu jako v původním výpočtu. Změna nastala u proměnných WE,HA,WMED, ale nadále nejsou statisticky významné. Proměnná MTR stále vystupuje v regresi (3.2.2) se značným vlivem. Pro zajímavost zkusíme ještě vynechat výrazně vlivovou proměnnou MTR a proměnnou RP W G (data ponecháme filtrovaná, tedy pro LF P =1): FAMINC = β 0 + β 1 WHRS + β 2 KL6+β 3 K618 + β 4 WA+ β 5 WE (3.2.3) + β 6 WW + β 7 HHRS + β 8 HA + β 9 HE + β 10 HW + β 11 WMED+ β 12 WFED+ β 13 UN + β 14 CIT + β 15 AX + u.

3.2. Některé další příklady implementace umělých proměnných 34 Z tabulky 3.4. obsahující výsledky odhadů parametrů regresního modelu (3.2.3) zjistíme, že výraznou statistickou průkaznost mají parametry kromě konstanty taky u počtu odpracovanýh hodin obou manželů (WHRS a HHRS), u průměrného hodinového výdělku žen (WW, v dolarech) a u mzdy manžela (HW,vdolarech). Kladná znaménka těchto parametrů potvrzují očekávání, že výše příjmů rostou s početem odpracovaných hodin a tedy i s růstem mzdy manžela i manželky. Ostatní parametry nejstou statisticky významné. Také změna znaménka u parametru CIT na kladné naplnila očekávání, že příjmy jsou vyšší ve větších městech než na venkově. Koeficient determinace je o něco nižší než vykazuje původní regresní rovnice, ale Durbin-Watsonův koeficient nenaznačuje kladnou autokorelaci v modelu (3.2.3). koeficient determinace 0.6774 s 2 43137469.3442 Durbin-Watsonův koeficient 2.0179 proměnná koeficient t-statistika významnost konstanta -27672.043238-6.625326 0.000000 WHRS 4.456302 7.624518 0.000000 KL6 925.802559 0.845656 0.398397 K618-6.563307-0.019724 0.984276 WA 188.881398 1.645684 0.100842 WE 371.658504 1.655166 0.098903 WW 725.936895 5.174063 0.000000 HHRS 7.205854 10.296506 0.000000 HA 5.681431 0.055110 0.956086 HE -177.174680-1.095863 0.273989 HW 2366.081119 17.286931 0.000000 WMED 84.764520 0.596626 0.551193 WFED 34.782511 0.254202 0.799508 UN -149.553397-1.182584 0.237880 CIT 201.972839 0.235018 0.814350 AX -77.657230-1.253879 0.210831 Tabulka 3.4: odhadnuté koeficienty upravené regresní rovnice o (3.2.3)

3.2. Některé další příklady implementace umělých proměnných 35 10 x 104 OLS Actual vs. Predicted 8 Actual Predicted 6 4 2 0 0 50 100 150 200 250 300 350 5 x 104 Residuals 4 3 2 1 0 1 0 50 100 150 200 250 300 350 Obrázek 3.3: Graf pro regresní rovnici (3.2.2) 10 x 104 OLS Actual vs. Predicted 8 Actual Predicted 6 4 2 0 2 0 50 100 150 200 250 300 350 6 x 104 Residuals 4 2 0 2 4 0 50 100 150 200 250 300 350 Obrázek 3.4: Graf pro regresní rovnici (3.2.3)

3.2. Některé další příklady implementace umělých proměnných 36 3.2.2 Platby kreditní kartou V následujícím příkladu se podíváme na výdajový model, kde vysvětlovanou proměnnou bude tvořit průměrná útrata kreditní kartou (ozn. Avgexp). Vstupní datový soubor o 100 pozorováních (viz příloha na přiloženém datovém nosiči CD) obsahuje tyto proměnné: MDR počet derogačních reportů 5, Acc = 1 pro akceptovanou žádost o platbu kreditní kartou, Age věk respondenta, Income příjem/10.000, Avgexp prům. měsíční výdaje přes kreditní kartu, Ownrent = 1 vlastní-li dotazovaný dům/byt, 0 nájemce, Selfempl = 1 pro OSVČ 6,0jinak. Avgexp = β 0 + β 1 MDR + β 2 Acc + β 3 Age + β 4 Income (3.2.4) + β 5 Ownrent + β 6 Selfempl + u. Výsledky odhadnutých koeficientů regresní rovnice (3.2.4) zobrazuje tabulka 3.5. Statisticky významný koeficient u proměnné Income a jeho kladná hodnota potvrzuje očekávání, že výdaje porostou s příjmem. Významnost vykazuje také odhad parametru Acc. Podíváme-li se na zaznamenané hodnoty u této proměnné přímo v datovém souboru, zjistíme, že nabývá pouze dvou hodnot, a to 1 pro uskutečněné transakce nebo 0 pro neuskutečněné transakce. Pokud se transakce neuskutečnila, je i hodnota výdajů rovna 0. Plusové znaménko zmíněného parametru utvrzuje skutečnost, že bez provedené platby kreditní kartou nevzrostou průměrné měsíční výdaje na té samé kreditní kartě. Ostatní koeficienty nejsou statisticky významné. V uvedeném modelu tedy nezáleží ani na věku respondenta ani na tom, zda vlastní dům/byt či podniká jako OSVČ. Nyní zkusíme proměnnou Acc z regrese vynechat a data ořežeme pouze na ta pozorování, kde hodnota transakce platební kartou nebyla nulová. Počet pozorování se tak zredukoval na 72. Upravená regresní rovnice bude ve tvaru 5 Number of derogatory reports - budeme předpokládat, že se jedná o počet bankou zamítnutých požadavků k úhradě nákupu kreditní kartou. 6 Osoba samostatně výdělečně činná.

3.2. Některé další příklady implementace umělých proměnných 37 koeficient determinace 0.2975 s 2 64748.6103 Durbin-Watsonův koeficient 1.7038 proměnná koeficient t-statistika významnost konstanta -218.519515-1.641533 0.104065 MDR -11.782020-0.416104 0.678292 Acc 235.529153 3.531725 0.000645 Age 0.429761 0.120031 0.904717 Income 62.812060 3.515171 0.000681 Ownrent 44.314325 0.756126 0.451485 Selfempl -30.494136-0.242353 0.809041 Tabulka 3.5: odhadnuté koeficienty regresní rovnice (3.2.4) Avgexp = β 0 + β 1 MDR + β 2 Age + β 3 Income (3.2.5) + β 4 Ownrent + β 5 Selfempl + u a hodnoty odhadnutých parametrů jsou uvedeny v tabulce 3.6. koeficient determinace 0.2173 s 2 85171.4485 Durbin-Watsonův koeficient 1.6692 proměnná koeficient t-statistika významnost konstanta -63.751132-0.369313 0.713077 MDR -58.860910-0.599123 0.551142 Age 0.410344 0.073155 0.941904 Income 95.502415 3.537581 0.000745 Ownrent -0.580182-0.006536 0.994804 Selfempl -289.567036-1.182686 0.241177 Tabulka 3.6: odhadnuté koeficienty regresní rovnice (3.2.5) Výsledky odhadů se oproti původní regresi téměř nezměnily. Koeficienty determinace i Durbin-Watsonův zůstaly na nízké hodnotě a statisticky významný je pouze odhad parametru příjmu.

3.2. Některé další příklady implementace umělých proměnných 38 2000 1500 OLS Actual vs. Predicted Actual Predicted 1000 500 0 500 0 10 20 30 40 50 60 70 80 90 100 2000 Residuals 1500 1000 500 0 500 0 10 20 30 40 50 60 70 80 90 100 Obrázek 3.5: Graf pro regresní rovnici (3.2.4) 2000 1500 OLS Actual vs. Predicted Actual Predicted 1000 500 0 0 10 20 30 40 50 60 70 80 1500 Residuals 1000 500 0 500 0 10 20 30 40 50 60 70 80 Obrázek 3.6: Graf pro regresní rovnici (3.2.5)

3.2. Některé další příklady implementace umělých proměnných 39 Význam proměnné Avgexp bychom mohli s trochou fantazie chápat i jako průměrný měsíční limit na platby kreditní kartou. Zápis do regresní rovnice bude následující MDR = β 0 + β 1 Acc + β 2 Age + β 3 Income + β 4 Avgexp (3.2.6) + β 5 Ownrent + β 6 Selfempl + u. V tabulce 3.7 najdeme hodnoty odhadnutých koeficientů regrese (3.2.6). Výrazně statisticky významný odhadovaný koeficient umělé proměnné Acc je ve shodě s předpokladem, že s každou další akceptovanou žádostí o platbu kreditní kartou oproti zamítnuté platbě, bude vykázaný počet derogačních zpráv menší (blížící se nule). Koeficient determinace je i v tomto případě velice nízký, ale zároveň se mírně zvýšila hodnota Durbin-Watsonova koeficientu. koeficient determinace 0.2022 s 2 0.8668 Durbin-Watsonův koeficient 1.8743 proměnná koeficient t-statistika významnost konstanta 1.043280 2.164163 0.033013 Acc -0.982466-4.109924 0.000085 Age -0.004182-0.319351 0.750177 Income 0.076417 1.105360 0.271855 Avgexp -0.000158-0.416104 0.678292 Ownrent -0.047276-0.219853 0.826467 Selfempl -0.851541-1.884069 0.062680 Tabulka 3.7: odhadnuté koeficienty regresní rovnice (3.2.6)

3.2. Některé další příklady implementace umělých proměnných 40 8 6 OLS Actual vs. Predicted Actual Predicted 4 2 0 2 0 10 20 30 40 50 60 70 80 90 100 6 Residuals 4 2 0 2 0 10 20 30 40 50 60 70 80 90 100 Obrázek 3.7: Graf pro regresní rovnici (3.2.6) 3.2.3 Faktory ovlivňující mzdu V dalším příkladu porovnáme výsledky odhadů jednotlivých koeficientů u stejných proměnných za různá období. Máme soubor dat z roku 1988 o 575 jedincích za 7leté období (přílohy na přiloženém datovém nosiči CD) s těmito proměnnými: EXP délka praxe, WKS odpracované týdny, OCC = 1 jde-li o zaměstnaného dělníka, IND = 1 pro zpracovatelský průmysl, SOUTH = 1 bydlí-li jedinec na jihu USA, SMSA = 1 bydlí-li jedinec ve městě, MS = 1 pro ženatého/vdanou, FEM = 1 pro ženu, UNION = 1 jedná-li se o mzdu stanovenou dle kolektivní smlouvy,

3.2. Některé další příklady implementace umělých proměnných 41 ED délka vzdělání (v letech), BLK = 1 pro osobu černé pleti, LW AGE logaritmus mzdy. Za vysvětlovanou proměnnou zvolíme mzdu (LW AGE) a regresní rovnice bude mít tento tvar LW AGE = β 0 + β 1 EXP + β 2 WKS + β 3 OCC + β 4 IND (3.2.7) + β 5 SOUTH + β 6 MS + β 7 FEM + β 8 UNION + β 9 ED + β 10 BLK + u. Vypočtené odhady koeficientů pro jednotlivá období (základní období má ozn. T 1 ) jsou uvedeny v tabulkách 3.9 až 3.15 a příslušné grafy zobrazují obrázky 3.8 až 3.14. Jednotlivé hodnoty odhadů se až na konstantu pohybují kolem nuly. Shrneme je do jedné tabulky (Tab. 3.8). Označení + vyjadřuje ty odhady parametrů, které rostou s růstem příjmu (jedná-li se o kvantitativní proměnné) nebo nabývají vyšších hodnot oproti základní skupině umělých proměnných v regresi nezahrnutých. Označení vyjadřuje přesný opak. období T 1 T 2 T 3 T 4 T 5 T 6 T 7 KD 7 0.4890 0.4868 0.4313 0.4504 0.4747 0.4476 0.4461 DW 8 1.9407 1.9076 1.8529 1.9137 1.9001 1.8533 1.8426 konstanta + + + + + + + EXP + + + + + + + WKS + + 9 + 9 + + + 9 + 9 OCC IND + 9 + 9 + 9 + + + + SOUTH 9 9 9 9 SMSA + + + + + + + MS + + 9 + 9 + 9 + + + FEM UNION + + + 9 + 9 + + + ED + + + + + + + BLK Tabulka 3.8: souhrn výsledků odhadnutých koeficientů (tab. 3.9 až 3.15) 7 Koeficient determinace 8 Durbin-Watsonův koeficient 9 Odhad koeficientu je statisticky nevýznamný