5. PŘEDNÁŠKA EKONOMETRICKÝ MODEL REGRESNÍ ANALÝZA DUMMIES VÍCENÁSOBNÁ REGRESE 1
STRUKTURA PŘEDNÁŠKY - DNES - Formulace a strukturace problému za pomoci teorie; data; ekonometrický model; identifikační strategie; interpretace výsledků Minule: data, transformace v LRM Dnes - dummies: vymezení pojmů interpretace DUMMY interakce DUMMY další ukázky použití 2
DUMMIES 3
DUMMY: VYMEZENÍ POJMŮ DUMMY binární proměnná; nula-jednotková proměnná, umělá proměnná využíváme: k popisu dvou stavů (muž/žena; svobodná/vdaná; bílý/nonbílý; blízko dálnice/ne; člen odborů/ne; učil se/neučil se; jsem z Prahy/ne; má grant/nemá) k rozkladu kategoriální proměnné S čím nám pomůže? X - změří určitý efekt/vliv (DUMMY je proměnná našeho zájmu: vysvětlující), měří průměrné rozdíly mezi kategoriemi, indikátory - kontroluje část variability vysvětlované proměnné Y - může být i vysvětlovanou proměnnou (lineární pravděpodobnostní modely, probity, ) 4
UKÁZKA POUŽITÍ: MZDY - MUŽI VS. ŽENY wage i = β 0 + δ 0 female i + u i kde (female = 1 pokud žena, female = 0 jinak) pro 2 kategorie pouze 1 DUMMY!!! wage i = β 0 + δ 0 female i + β k X ki + u i co může být X 1 X k? my zde pro zjednodušení: wage i = β 0 + δ 0 female i + β 1 educ i + u i 5
DUMMY PROMĚNNÉ V LRM Např. předpokládáme jinou úrovňovou konstantu pro muže a ženy porovnání průměrů dvou skupin log( ˆwage ) log( ˆwage ) F M 0
DUMMIES PRO KATEGORIE a) Kategorie nejvyšší dosažené vzdělání b) Intervaly - mzda Obecně: řeší nelinearitu; outliers; nenormální rozdělení u X Rychlý nárůst počtu regresorů 7
DUMMY PROMĚNNÉ Závisle proměnná: porodní váha v kg koeficient směr. chyba t-podíl p-hodnota const 3,9 0,787 4,96 0,003 *** male 0,3 0,009 33,33 0,000 *** DUMMY interpretujeme obdobně, ne ovšem když se změní pohlaví o jednotku 0 průměrná hmotnost děvčat 1 průměrný rozdíl hmotnosti chlapců oproti děvčatům 8
INTERPRETACE KOEFICIENTŮ level-dummy y DUMMY Y changes by 1 units if D=1 log-dummy log (y) DUMMY Y changes by (100x 1 )% if D=1 log( ˆwage ) log( ˆ F wage M) 0,297 ( wage ˆ wage ˆ ) / wage ˆ exp( 0, 297) 1 0, 257 F M M 9
INTERPRETACE KOEFICIENTŮ LOG - DUMMY 10
DUMMIES PRO ČAS Trend pro období dummies pooled cross sections časové řady panelová data Sezónnost pro čtvrtletí, měsíce dummies 11
MODEL DETERMINISTICKÉ SEZÓNNOSTI 1,000,000 Reálný HDP 900,000 800,000 700,000 600,000 500,000 400,000 300,000 1998 2000 2002 2004 2006 2008 2010
MODEL DETERMINISTICKÉ SEZÓNNOSTI UŽITÍ SEZÓNNÍCH DUMMY PROMĚNNÝCH (NULA-JEDNOTKOVÝCH) D 1, D 2, D 3, D 4, aditivní dekompozice S D D D t 2 2t 3 3t 4 4t JEDNU PROMĚNNOU JSME VYNECHALI, ABYCHOM SE VYHNULI PERFEKTNÍ MULTIKOLINEARITĚ MODEL S DETERMINISTICKÝM TRENDEM (lineárním) A DETERMINISTICKOU SEZÓNNOSTÍ PAK MÁ TVAR Y t t D D D 0 1 2 2t 3 3t 4 4t u t LZE ODHADOVAT MNČ ˆ ˆ ˆ 2 3 4 4 * ˆ1 * ˆ ˆ2 2 * ˆ ˆ3 3 * ˆ ˆ4 4
MODEL DETERMINISTICKÉ SEZÓNNOSTI SEZÓNNÍ OČIŠTĚNÍ: V PŘÍPADĚ DETERMINISTICKÉ SEZÓNNOSTI ODEČTEME ODHADNUTÉ PARAMETRY OD JEDNOTLIVÝCH HODNOT PŮVODNÍ ČASOVÉ ŘADY V PŘÍPADĚ STOCHASTICKÉ SEZÓNNOSTI JE MOŽNÉ POUŽÍT NAPŘÍKLAD METODU X12 ARIMA (ZALOŽENA NA KLOUZAVÝCH PRŮMĚRECH) AD.
INTERAKCE DUMMY X DUMMY w= β 0 + β 1 * married+ β 2 * female+β 3 *married*female + u i w^= 5,5 + 2,1* married - 1,2* female - 3,3*married* female 15
INTERAKCE DUMMY X OTHER použití: odhalení různé intenzity vlivu faktorů v závislosti na kategorii DUMMY (nejen úrovně) 16
17
INTERAKCE 2 DUMMY PROMĚNNÝCH Mějme informace o cenách ojetých aut značky škoda Uvažujme pouze typy Felicia a Octavia Uvažujme krátkou a kombi verzi Chceme zjistit, jaký je v průměru rozdíl v přirážkách za kombi verzi mezi typem Felicia a Octavia cena octavia kombi octavia kombi u i i i i i i 18
BINÁRNÍ VYSVĚTLOVANÁ PROMĚNNÉ - specifikace: - interpretace: (Linear Probability Model) - použití - hledání síly determinant rozhodnutí: pracovat, migrovat, nakupovat, krást, koupit padělek, spáchat zločin etc. - LPM- omezení - vyrovnané hodnoty mimo interval 0; 1 ; lineární vztah (nereálné; přesah); heteroskedasticita var( y x) p( x) (1 p( x)) kde p(x) 0 1x1 2x2... kxk - řešení? logit, probit x hůře interpretovatelné 19
BINÁRNÍ VYSVĚTLOVANÁ PROMĚNNÉ SRC: WLDRG, 235 The relationship between the probability of labor force participation and educ. Vdané ženy 1975 The other independent variables are fixed at the values nwifeinc 50, exper 5, age 30, kidslt6 1, and kidsge6 0 for illustration purposes. No woman has less than five years of education. 20
PŘÍKLAD :HOUSING Cíl: odhadnout příspěvky jednotlivých faktorů k ceně možná x i : price f ( x ; x ; x ;... 1 2 3 x rozloha; x počet pokojů x pozemek; x - věk x - dopravní dostupnost(jak?) x rekonstrukce; x novostavba x park do 500 m x počet pater, patro x cihla X - atraktivita lokality ) Wooldridge (str. 135): 21
HOUSING Hedonic price model for houses Hedonické regresní modely předpokládají, že cena statku může být určena jeho charakteristikami ln price i 0 1sqfeet i 2acres i 3year i 4bedr i 5bath i garage basement u 6 i 7 i 22
ZIETZ (2007) P-value study uses data from Utah they consist of,366 home sales 6/99 to 6/00) 1000 ft² = 92 m² 23
ASENSIO (2000) log RIDERSHIP log price 6 13 dummy it it lag _ rider e 14 0 1 it it log quality 2 it log 3 petrol it log 4 pop it suburb 5 it RIDERSHIP - measured in passenger-kms (in area i, in time t) PRICE - is calculated as the ratio of total revenue in real terms over passengers-km at each urban area (it) QUALITY - the number of places_km offered by RENFE, divided by the length of the suburban rail network at each city (it) PETROL - the real price of petrol (it) POP - total population living in the municipalities covered by RENFE's suburban network (it) SUB - the ratio of peripheral to central city population (it) 24
ASENSIO (2000) LOG LEVEL DUMMIES 25
REFERENCE J. Asensio: The success story of Spanish suburban railways: determinants of demand and policy implications; Transport Policy, Volume 7, Issue 4, October 2000, Pages 295-302 Zietz et al. 2007: Determinants of House Prices: A Quantile Regression Approach: DEPARTMENT OF ECONOMICS AND FINANCE WORKING PAPER SERIES; Middle Tennessee State University May 2007 Wooldridge (kap. 7) 26