Práce s panelovými daty #

Práce s panelovým dat Práce s panelovým dat # Václava Pánková * Úvod Panelová data vznkají opakovaným pozorováním skupn jednotek, např. domácností, frem nebo států, majících určtou společnou charakterstku (např. země EU5, tranztvní ekonomk). V kontextu ekonometrckých analýz jsou svébtnou kategorí, která umožňuje nahlédnout současně do struktur dnamk studovaných ekonomckých jevů. Představují větší souhrn detalních nformací a umožňují tak lépe posthnout měnící se ekonomckou strukturu příčn takových změn. V rámc panelových dat a technk pro jejch zpracování je uspokojvě řešena otázka krátkých časových řad, což může být užtečné př analýze dat ČR (vz např. Pánková, oba text 005). Mohou se tak stát pomůckou př zkoumání událostí, ke kterým chbí dostatečně dlouhé časové řad, avšak vsktují se paralelně v podobných vývojových stuacích. To je příklad tranztvních ekonomk. Převážně se jedná o data průřezová, přčemž je možné je zjstt opakovaně, avšak ne v přílš dlouhém časovém horzontu. Krátké časové řad ukazatelů, zejména ročních, neumožňují kvaltní ndvduální zkoumání, avšak sdružením údajů z několka analogckých ekonomk vtvoříme datový soubor, který dovoluje provést rozumnou statstckou verfkac výsledků. Velká část emprckých aplkací koresponduje buď s tpem modelu obsahujícího pouze náhodné vlv, nebo s modelem obsahujícím sstematcké vlv; tomu pak odpovídá volba odhadových metod. Rozhodnutí o výběru mez oběma tp modelů je možné podpořt aplkací Hausmanova testu. Panelová data jako východsko pro formulac modelu V obecném případě pracujeme s datovou strukturou k.. ε k =.. = ε ε =, k T T T.. T ε T kde t je vsvětlovaná proměnná příslušející jednotce a času t # * Článek bl zpracován jako jeden z výstupů výzkumného projektu Ekonometrcká analýza mkroekonomckých procesů pomocí modelů panelových dat, aplkace v ekonomckém prostředí ČR regstrovaného u Grantové agentur České republk pod evdenčním číslem 40/04/0756. Doc. RNDr. Václava Pánková, CSc.; Katedra ekonometre, Fakulta nformatk a statstk, VŠE v Praze, pankova@vse.cz. 79

Acta Oeconomca Pragensa, roč. 5, č., 007 j t..je hodnota j-té vsvětlující proměnné (j =,,, k) pro -tou jednotku v čase t ε t je náhodná složka rovnce pro jednotku v čase t =,,, n, t =,,, T. Pro stručnost zápsu použjeme obvklé značení ε = = ε ε = n n ε n kde je vektor rozměru nt, matce nt k, ε vektor s počtem složek nt. Relevantní standardní lneární model pak formulujeme vztahem = β + ε () kdž β = [ β β.. βk ] Pokud náhodná složka modelu () splňuje odpovídající předpoklad, můžeme vektor parametrů β odhadnout metodou nejmenších čtverců (MNČ). Znamená to ovšem gnorovat skutečnost, že n ndvduálních pozorování T-krát není totéž jako nt ndvdualt. Metodck je třeba rozlšovat případ, kd T je podstatně větší než n (krajní případ n= znamená standardní časové řad) od stuace, kd větším z obou rozměrů je n (lmtně pak T= znamená čstě průřezová data). Př analýzách vztahujících se k české ekonomce je obvklejší druhý z obou případů. Dále popsané metod jsou na VŠE k dspozc v rámc softwarového vbavení PcGve. Metod pro odhad parametrů Vzhledem k dostupnost dat popsujících ekonomku ČR je především zájem o metod týkající se případu n>t. V zájmu snadné orentace ve školním softwaru VŠE nebudou jejch anglcké názv překládán. ereme-l v úvahu panelovou strukturu dat, je vhodné náhodnou složku chápat jako součet ε = α + η, t t kde η t není korelováno s t a α reprezentuje ndvduální efekt. Tím je mšlena skutečnost, že dvě časově různá pozorování téže jednotk s budou více podobná než údaje o dvou různých jednotkách ve stejném čase. Indvduální efekt se obecně rozlšuje na dva případ () α není korelováno s t () α je korelováno s t. Metod spojené s případem () Postup tpu between Vektor parametrů β je odhadován pomocí MNČ z rovnce 80 ()

Práce s panelovým dat kde = β + u, T = t T t= a je defnováno analogck. Pro matcový záps bude vhodné zavést nt n rozměrnou matc D = I n T, v níž T je T-rozměrný vektor jednček, která obsahuje nula jednčkové (dumm) proměnné korespondující s každou z n jednotek souboru. Parametr tpu between je pak odhadnut pomocí estmátoru D β = ( P ) P, (3) D D kde = D( D D) je smetrcká dempotentní matce. P D Každá jednotka je ted v regres zastoupena průměrným hodnotam ze svých T pozorování; MNČ je pak aplkována na data v počtu n. Jedná se o estmátor W D Postup tpu wthn β = ( M ) M, (4) D D kde M D = InT D( D D) je rovněž smetrcká dempotentní matce. Výraz (4) je shodný s aplkací MNČ na rovnc t = ( t ) β + u (podrobnost např. v Johnston, DNardo, 997). W t Do regrese ted za každou jednotku vstupují jen odchlk od jejích průměrných ukazatelů; celkem nt údajů pro každou proměnnou. Odhad zobecněnou MNČ Tato metoda (v PcGve GLS) probíhá ve dvou krocích v prvním je odhadována kovaranční matce vektoru náhodných složek modelu, ve druhém je znalost kovaranční struktur použta k vjádření odhadu vektoru parametrů β modelu. K provedení prvního kroku nejprve formalzujeme E ( η) = 0, E( ηη ) = σ η IηT, E( α ) = 0, E( α α j ) = 0 pro j, ( α α ) = σα E, E( α η ) = 0. jt Za těchto předpokladů má každá z n jednotek kovaranční matc rozměru σ η + σα σα.. σα σα + σα.. σα Σ = E( ε ) = + = ε IT σαt T. σα σα.. + σα Datům ze schématu a modelu pak bude odpovídat kovaranční matce T T 8

Acta Oeconomca Pragensa, roč. 5, č., 007 Σ 0.. 0 0 Σ.. 0 Ω = I Σ = = n E(εε ). 0 0.. Σ Pro nverz blokově dagonální matce Ω pak bude třeba zjstt Σ / θ = I T, σ η T kde θ = T σ α + σ η je velčna, kterou v prvním kroku najdeme odhadem. (5) V druhém kroku pak použjeme MNČ na data a získaná transformací = + θ, = + θ. (6) t t t Pokud máme k dspozc odhad tpu between s rezdu W s rezdu û, můžeme do (5) dosadt σ u W u W η =, nt nk n čímž získáme hledané θ. t σ α = σ, T 8 u u σ =, n k û a odhad tpu wthn Všmněme s ještě že estmátor získaný pomocí MNČ z () můžeme rozepsat jako ( ) ( ) ( M D PD ) ( ) M D = = + = βw + ( ) β Je to ted vážený součet estmátorů wthn a between. = P β. Vztah (6) pak ukazují, že σ α 0 (neexstence nekorelovaných ndvduálních komponent) znamená θ= a zobecněná MNČ je pak pouze MNČ. Nní budeme pracovat s modelem Metod spojené s případem () t = t β + α + ηt (7) v němž musíme přpustt, že cov( t, α ) 0. Důsledkem je, že hodnot α ze vztahu (7) je třeba zjstt odhadem jako další parametr. Odhad těchto parametrů však nemohou být konzstentní, protože jejch počet je roven n a s rostoucím rozsahem souboru se ted počet parametrů stále zvšuje. Abchom provedl konzstentní odhad alespoň pro parametr β, lze postupovat v souladu s větou Frshe, Waugha a Lovella (vz např. Davdson, McCnnon, 993) a vjít z modfkace (7) = β + Dα + η, kde D = I n T, a odhadnout pomocí MNČ β = ( M D ) M D, kdž = I D( D D) D, Snadno zjstíme, že takto bl vlastně proveden odhad tpu M D D

Práce s panelovým dat wthn, tak jak bl popsán pro případ (). Oprávněnost tohoto přístupu nahlédneme, kdž uvážíme, že je a ted = β + α + η = β + α + η t = ) β + ( η η ). (8) ( t t Ze vztahu (8) je zřejmé, že ndvduální vlv α bl takto elmnován. Stejného efektu lze dosáhnout, bude l se pracovat s dferencem původních dat. Je ale třeba upozornt, že touto cestou z modelu vloučíme takové proměnné, které jsou ndvduálním a časově nvarantním ukazatelem jednotek v souboru (podrobnost např. v Johnston, DNardo, 997). Pro úplnost zmíníme ještě dva přístup k datovým souborům s malým počtem jednotek a dostatečně dlouhým časovým řadam. Metoda LSDV (= Least Squares wth Dumm Varables) ošetřuje ndvduální vlv zavedením nula jednčkových proměnných v počtu n-, kterým jsou rozlšen jednotk souboru. Indvduální efekt se tak projevuje v různých hodnotách konstant. Odlšení ve všech parametrech můžeme dosáhnout zpracováním, které je aplkací smultánní soustav rovnc. Počet rovnc se rovná počtu sledovaných jednotek a formálně koresponduje s flozofí zdánlvě nesouvsejících regresních rovnc, které jsou propojen prostřednctvím určtých vlastností svých náhodných složek. Rovnce uvažujme opět ve tvaru = β + u, =,..., n, kde n je počet rovnc a také datových jednotek. Jsou spojen prostřednctvím náhodných složek, pro které E ( u ) = 0, E( uu ' ) = ωim, E ( u t u jt ) = ω j, pro, j =,...,n, přčemž t =,...,T je počet pozorování v čase. Předpokládáme, že E ( u t u jτ ) = 0 pro t τ. Veškerá nformace týkající se korelačních vztahů mez náhodným složkam tak může být popsána matcí Ω rozměru n n, která na místě j má prvek ω j. Dále je možné předpokládat, že každá rovnce může mít jný počet vsvětlujících proměnných n a tudíž parametrů. Počet parametrů v -té rovnc označme k a k = k. Celou soustavu rovnc můžeme popsat vztahem n 0 = 0 0 0......... 0 β u 0 β u + n βn un nebo kompaktněj jako = β + u, (9) = 83

Acta Oeconomca Pragensa, roč. 5, č., 007 kdž je vektor délk Tn, je matce rozměru Tn k a β je vektor délk k. Vektor náhodných složek o délce Tn má kovaranční matc E( uu' ) E( uu... E( uun E( uu' ) E( uu... E( uun V = E( uu' ) = = Ω I E unu E u nu E unu ( ' ) (... ( n rozměru Tn Tn. Parametr modelu (9) odhadujeme zobecněnou metodou nejmenších čtverců. V případě, že předpokládané vztah mez náhodným složkam exstují, ted není-l ω j = 0 př j, budou odhad parametrů vdatnější než př použtí metod nejmenších čtverců na každou rovnc zvlášť. Hausmanův test Případ () a () odlšující vlastnost ndvduálního efektu představují v prax krajnost, které zpravdla není dosaženo. Emprcké poznatk ukazují, že vjdeme-l z předpokladu (), mohou být odhadnuté parametr vchýlené směrem nahoru, zatímco předpoklad () spíše povede k vchýlení odhadů směrem dolů. Rozhodování mez () a () je možné podpořt provedením Hausmanova testu, který stručně popíšeme. Předpokládejme, že odhad provedený za předpokladu () posktl vektor parametrů β ( ) a kovaranční matc Σ (), zatímco předpoklad () vústl v β ( ) a Σ (). Testovat budeme statstku H = β β ) ( Σ Σ ) ( β β ), ( ( ) ( ) ( ) ( ) ( ) ( ) která asmptotck má χ test s k (= počet sloupců v matc ) stupn volnost. Nulovou hpotézou je, že platí předpoklad (). Podrobněj vz např. Green (003). udeme-l mít k dspozc θ jako odhad ze vztahu (5), lze postupovat takto (vz Johnston, DNardo, 997). Proměnné, transformujeme na t = t + θ, t = t + θ, dále defnujme t = t. Hausmanův test pak lze provést jakožto F test parametru γ ve vztahu = β + γ + u. Testována je hpotéza, zda vnechání ndvduálního efektu má vlv na konzstentnost odhadů, pokud tto bl proveden metodam tpu (). Lteratura [] DAVIDSON, R. MacKINNON, J., 993 Estmaton and Inference n Econometrcs. Oxford Unv. Press, 993. [] GREEN, W. H., 003 Econometrc Analss. Pearson Educaton Ltd. New Perse, 003. 84

Práce s panelovým dat [3] JOHNSTON, J. DNARDO, J., 997 Econometrc Methods. McGrawHll, 997. [4] PÁNKOVÁ, V., 005 Poptávka po kaptálu v tranztvních ekonomkách. Ekonomcký časops, 005, roč. 53, č., s. 9 8. ISSN 003-3035 [5] PÁNKOVÁ, V., 005 Tobnovo Q teore a aplkace. Poltcká ekonome, 005, roč. LIII, č. 5, s. 60 608. ISSN 003-333 Práce s panelovým dat Václava Pánková Abstrakt Panelová data vznkají opakovaným pozorováním určté skupn jednotek, např. domácností č frem, ale také celých ekonomk s některým společným charakterstkam jako třeba země EU5, tranztvní ekonomk, apod. Získáme tak více detalních nformací, které nám dovolí analzovat a zdůvodnt změn zkoumané ekonomcké struktur. Z řad možných odhadových technk chce tento článek upozornt na takové, které umožňují prác s velm krátkým časovým rozměrem panelových dat. Pro Českou republku a ostatní stále ještě relatvně nové trh jsou právě tto technk velm vhodné. Většna aplkací je spojena s rozlšováním vlastností ndvduálního efektu a v důsledku toho pak s volbou adekvátní metod pro odhad. Rozlšt model v tomto smslu umožňuje např. Hausmanův test. Klíčová slova panelová data; model s náhodným/sstematckým vlv; krátké časové řad; Hausmanův test. Econometrc models wth panel data Abstract Panel data are a result of repeatng observatons of a group of unts, e.g. households, frms, but also whole economes wth some common characterstcs as EU5, transton economes a. s. o. So, more detals are avalable enablng to analze a changng economc structure and ts reasonng. Specfc technques can be chosen to deal wth short tme seres what n case of Czech Republc, and other relatvel new markets, can be ver helpful. Most part of emprcal applcatons corresponds wth random or fxed effect models, respectve. To each of ths tpe approprate methods relate. An exact choce between both effects can be done b the help of Hausman test. Ke words panel data; random / fxed effects model; short tme seres; Hausman test. JEL classfcaton C3 85