Práce s panelovými daty #

Podobné dokumenty
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

REGRESNÍ ANALÝZA. 13. cvičení

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Náhodným vektorem rozumíme sloupcový vektor složený z náhodných veličin X = (X 1, X 2,

Bořka Leitla Bolometrie na tokamaku GOLEM

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Analýza panelových dat

AVDAT Klasický lineární model, metoda nejmenších

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

v cenových hladinách. 2

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

4EK211 Základy ekonometrie

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Simulační metody hromadné obsluhy

Testování hypotéz o parametrech regresního modelu

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Testování hypotéz o parametrech regresního modelu

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Geometrie metody nejmenších čtverců

Neparametrické metody

Příloha A: Empirická příloha

Bodové a intervalové odhady parametrů v regresním modelu

ZÁPADOČESKÁ UNIVERZITA V PLZNI

7. Analýza rozptylu.

Regresní a korelační analýza

Využití logistické regrese pro hodnocení omaku

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

6 Vícerovnicové ekonometrické soustavy 1

LINEÁRNÍ MODELY. Zdeňka Veselá

Klasická a robustní ortogonální regrese mezi složkami kompozice

Přednáška č. 11 Analýza rozptylu při dvojném třídění

6 LINEÁRNÍ REGRESNÍ MODELY

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

ANALÝZA SPOTŘEBITELSKÉHO CHOVÁNÍ S VYUŽITÍM TÖRNQUISTOVÝCH FUNKCÍ U VYBRANÝCH POTRAVINÁŘSKÝCH VÝROBKŮ

POROVNÁNÍ MEZI SKUPINAMI

Regresní a korelační analýza

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

PRAVDĚPODOBNOST A STATISTIKA

Pojem endogenity a exogenity

Vícekriteriální rozhodování. Typy kritérií

Znamená vyšší korupce dražší dálnice? Evidence z dat Eurostatu. Michal Dvořák *

Využití nástrojů GIS při analýze vztahů socio-ekonomických faktorů a úrovně sociální péče

AVDAT Nelineární regresní model

"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

Design Experimentu a Statistika - AGA46E

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ

Posuzování výkonnosti projektů a projektového řízení

ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION. Lenka Šobrová

L8 Asimilace dat II. Oddělení numerické předpovědi počasí ČHMÚ 2007

AVDAT Mnohorozměrné metody, metody klasifikace

2. Najděte funkce, které vedou s těmto soustavám normálních rovnic

Validation of the selected factors impact on the insured accident

Directional Vehicle Stability Prototyping Using HIL Simulation Ověření systému řízením jízdy automobilu metodou HIL simulací

APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY

VÝPOČET VELIKOSTNÍCH PARAMETRŮ KOMPOSTÁREN NA ZPEVNĚNÝCH PLOCHÁCH THE SIZE PARAMETER CALCULATION OF COMPOST PLANTS LOCALIZED ON COMPACTED AREAS

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

MODELOVÁNÍ A SIMULACE

Lineární a logistická regrese

Regresní analýza 1. Regresní analýza

11 Tachogram jízdy kolejových vozidel

REAKCE POPTÁVKY DOMÁCNOSTÍ PO ENERGII NA ZVYŠOVÁNÍ ENERGETICKÉ ÚČINNOSTI: TEORIE A JEJÍ DŮSLEDKY PRO KONSTRUKCI EMPIRICKY OVĚŘITELNÝCH MODELŮ

VLIV APLIKOVANÉ TECHNOLOGIE NA EFEKTIVNOST V SEKTORU VÝROBY MLÉKA # THE EFFECT OF APPLIED TECHNOLOGY ON THE EFFICIENCY IN DAIRY PRODUCTION

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Nejprve si připomeňme z geometrie pojem orientovaného úhlu a jeho velikosti.

Odhad parametrů N(µ, σ 2 )

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

4 Parametry jízdy kolejových vozidel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

STATISTIKA (pro navazující magisterské studium)

4/3.3. bodem v rovině (tvoří rovinný svazek sil), jsou vždy. rovnice z-ová. Pro rovnováhu takové soustavy

5EN306 Aplikované kvantitativní metody I

Úvod do analýzy časových řad

Kontingenční tabulky, korelační koeficienty

Normální (Gaussovo) rozdělení

permutace, popisující nějaké symetrie, je i π permutace, popisující nějakou symetrii.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

odpovídá jedna a jen jedna hodnota jiných

1. Základy měření neelektrických veličin

Transkript:

Práce s panelovým dat Práce s panelovým dat # Václava Pánková * Úvod Panelová data vznkají opakovaným pozorováním skupn jednotek, např. domácností, frem nebo států, majících určtou společnou charakterstku (např. země EU5, tranztvní ekonomk). V kontextu ekonometrckých analýz jsou svébtnou kategorí, která umožňuje nahlédnout současně do struktur dnamk studovaných ekonomckých jevů. Představují větší souhrn detalních nformací a umožňují tak lépe posthnout měnící se ekonomckou strukturu příčn takových změn. V rámc panelových dat a technk pro jejch zpracování je uspokojvě řešena otázka krátkých časových řad, což může být užtečné př analýze dat ČR (vz např. Pánková, oba text 005). Mohou se tak stát pomůckou př zkoumání událostí, ke kterým chbí dostatečně dlouhé časové řad, avšak vsktují se paralelně v podobných vývojových stuacích. To je příklad tranztvních ekonomk. Převážně se jedná o data průřezová, přčemž je možné je zjstt opakovaně, avšak ne v přílš dlouhém časovém horzontu. Krátké časové řad ukazatelů, zejména ročních, neumožňují kvaltní ndvduální zkoumání, avšak sdružením údajů z několka analogckých ekonomk vtvoříme datový soubor, který dovoluje provést rozumnou statstckou verfkac výsledků. Velká část emprckých aplkací koresponduje buď s tpem modelu obsahujícího pouze náhodné vlv, nebo s modelem obsahujícím sstematcké vlv; tomu pak odpovídá volba odhadových metod. Rozhodnutí o výběru mez oběma tp modelů je možné podpořt aplkací Hausmanova testu. Panelová data jako východsko pro formulac modelu V obecném případě pracujeme s datovou strukturou k.. ε k =.. = ε ε =, k T T T.. T ε T kde t je vsvětlovaná proměnná příslušející jednotce a času t # * Článek bl zpracován jako jeden z výstupů výzkumného projektu Ekonometrcká analýza mkroekonomckých procesů pomocí modelů panelových dat, aplkace v ekonomckém prostředí ČR regstrovaného u Grantové agentur České republk pod evdenčním číslem 40/04/0756. Doc. RNDr. Václava Pánková, CSc.; Katedra ekonometre, Fakulta nformatk a statstk, VŠE v Praze, pankova@vse.cz. 79

Acta Oeconomca Pragensa, roč. 5, č., 007 j t..je hodnota j-té vsvětlující proměnné (j =,,, k) pro -tou jednotku v čase t ε t je náhodná složka rovnce pro jednotku v čase t =,,, n, t =,,, T. Pro stručnost zápsu použjeme obvklé značení ε = = ε ε = n n ε n kde je vektor rozměru nt, matce nt k, ε vektor s počtem složek nt. Relevantní standardní lneární model pak formulujeme vztahem = β + ε () kdž β = [ β β.. βk ] Pokud náhodná složka modelu () splňuje odpovídající předpoklad, můžeme vektor parametrů β odhadnout metodou nejmenších čtverců (MNČ). Znamená to ovšem gnorovat skutečnost, že n ndvduálních pozorování T-krát není totéž jako nt ndvdualt. Metodck je třeba rozlšovat případ, kd T je podstatně větší než n (krajní případ n= znamená standardní časové řad) od stuace, kd větším z obou rozměrů je n (lmtně pak T= znamená čstě průřezová data). Př analýzách vztahujících se k české ekonomce je obvklejší druhý z obou případů. Dále popsané metod jsou na VŠE k dspozc v rámc softwarového vbavení PcGve. Metod pro odhad parametrů Vzhledem k dostupnost dat popsujících ekonomku ČR je především zájem o metod týkající se případu n>t. V zájmu snadné orentace ve školním softwaru VŠE nebudou jejch anglcké názv překládán. ereme-l v úvahu panelovou strukturu dat, je vhodné náhodnou složku chápat jako součet ε = α + η, t t kde η t není korelováno s t a α reprezentuje ndvduální efekt. Tím je mšlena skutečnost, že dvě časově různá pozorování téže jednotk s budou více podobná než údaje o dvou různých jednotkách ve stejném čase. Indvduální efekt se obecně rozlšuje na dva případ () α není korelováno s t () α je korelováno s t. Metod spojené s případem () Postup tpu between Vektor parametrů β je odhadován pomocí MNČ z rovnce 80 ()

Práce s panelovým dat kde = β + u, T = t T t= a je defnováno analogck. Pro matcový záps bude vhodné zavést nt n rozměrnou matc D = I n T, v níž T je T-rozměrný vektor jednček, která obsahuje nula jednčkové (dumm) proměnné korespondující s každou z n jednotek souboru. Parametr tpu between je pak odhadnut pomocí estmátoru D β = ( P ) P, (3) D D kde = D( D D) je smetrcká dempotentní matce. P D Každá jednotka je ted v regres zastoupena průměrným hodnotam ze svých T pozorování; MNČ je pak aplkována na data v počtu n. Jedná se o estmátor W D Postup tpu wthn β = ( M ) M, (4) D D kde M D = InT D( D D) je rovněž smetrcká dempotentní matce. Výraz (4) je shodný s aplkací MNČ na rovnc t = ( t ) β + u (podrobnost např. v Johnston, DNardo, 997). W t Do regrese ted za každou jednotku vstupují jen odchlk od jejích průměrných ukazatelů; celkem nt údajů pro každou proměnnou. Odhad zobecněnou MNČ Tato metoda (v PcGve GLS) probíhá ve dvou krocích v prvním je odhadována kovaranční matce vektoru náhodných složek modelu, ve druhém je znalost kovaranční struktur použta k vjádření odhadu vektoru parametrů β modelu. K provedení prvního kroku nejprve formalzujeme E ( η) = 0, E( ηη ) = σ η IηT, E( α ) = 0, E( α α j ) = 0 pro j, ( α α ) = σα E, E( α η ) = 0. jt Za těchto předpokladů má každá z n jednotek kovaranční matc rozměru σ η + σα σα.. σα σα + σα.. σα Σ = E( ε ) = + = ε IT σαt T. σα σα.. + σα Datům ze schématu a modelu pak bude odpovídat kovaranční matce T T 8

Acta Oeconomca Pragensa, roč. 5, č., 007 Σ 0.. 0 0 Σ.. 0 Ω = I Σ = = n E(εε ). 0 0.. Σ Pro nverz blokově dagonální matce Ω pak bude třeba zjstt Σ / θ = I T, σ η T kde θ = T σ α + σ η je velčna, kterou v prvním kroku najdeme odhadem. (5) V druhém kroku pak použjeme MNČ na data a získaná transformací = + θ, = + θ. (6) t t t Pokud máme k dspozc odhad tpu between s rezdu W s rezdu û, můžeme do (5) dosadt σ u W u W η =, nt nk n čímž získáme hledané θ. t σ α = σ, T 8 u u σ =, n k û a odhad tpu wthn Všmněme s ještě že estmátor získaný pomocí MNČ z () můžeme rozepsat jako ( ) ( ) ( M D PD ) ( ) M D = = + = βw + ( ) β Je to ted vážený součet estmátorů wthn a between. = P β. Vztah (6) pak ukazují, že σ α 0 (neexstence nekorelovaných ndvduálních komponent) znamená θ= a zobecněná MNČ je pak pouze MNČ. Nní budeme pracovat s modelem Metod spojené s případem () t = t β + α + ηt (7) v němž musíme přpustt, že cov( t, α ) 0. Důsledkem je, že hodnot α ze vztahu (7) je třeba zjstt odhadem jako další parametr. Odhad těchto parametrů však nemohou být konzstentní, protože jejch počet je roven n a s rostoucím rozsahem souboru se ted počet parametrů stále zvšuje. Abchom provedl konzstentní odhad alespoň pro parametr β, lze postupovat v souladu s větou Frshe, Waugha a Lovella (vz např. Davdson, McCnnon, 993) a vjít z modfkace (7) = β + Dα + η, kde D = I n T, a odhadnout pomocí MNČ β = ( M D ) M D, kdž = I D( D D) D, Snadno zjstíme, že takto bl vlastně proveden odhad tpu M D D

Práce s panelovým dat wthn, tak jak bl popsán pro případ (). Oprávněnost tohoto přístupu nahlédneme, kdž uvážíme, že je a ted = β + α + η = β + α + η t = ) β + ( η η ). (8) ( t t Ze vztahu (8) je zřejmé, že ndvduální vlv α bl takto elmnován. Stejného efektu lze dosáhnout, bude l se pracovat s dferencem původních dat. Je ale třeba upozornt, že touto cestou z modelu vloučíme takové proměnné, které jsou ndvduálním a časově nvarantním ukazatelem jednotek v souboru (podrobnost např. v Johnston, DNardo, 997). Pro úplnost zmíníme ještě dva přístup k datovým souborům s malým počtem jednotek a dostatečně dlouhým časovým řadam. Metoda LSDV (= Least Squares wth Dumm Varables) ošetřuje ndvduální vlv zavedením nula jednčkových proměnných v počtu n-, kterým jsou rozlšen jednotk souboru. Indvduální efekt se tak projevuje v různých hodnotách konstant. Odlšení ve všech parametrech můžeme dosáhnout zpracováním, které je aplkací smultánní soustav rovnc. Počet rovnc se rovná počtu sledovaných jednotek a formálně koresponduje s flozofí zdánlvě nesouvsejících regresních rovnc, které jsou propojen prostřednctvím určtých vlastností svých náhodných složek. Rovnce uvažujme opět ve tvaru = β + u, =,..., n, kde n je počet rovnc a také datových jednotek. Jsou spojen prostřednctvím náhodných složek, pro které E ( u ) = 0, E( uu ' ) = ωim, E ( u t u jt ) = ω j, pro, j =,...,n, přčemž t =,...,T je počet pozorování v čase. Předpokládáme, že E ( u t u jτ ) = 0 pro t τ. Veškerá nformace týkající se korelačních vztahů mez náhodným složkam tak může být popsána matcí Ω rozměru n n, která na místě j má prvek ω j. Dále je možné předpokládat, že každá rovnce může mít jný počet vsvětlujících proměnných n a tudíž parametrů. Počet parametrů v -té rovnc označme k a k = k. Celou soustavu rovnc můžeme popsat vztahem n 0 = 0 0 0......... 0 β u 0 β u + n βn un nebo kompaktněj jako = β + u, (9) = 83

Acta Oeconomca Pragensa, roč. 5, č., 007 kdž je vektor délk Tn, je matce rozměru Tn k a β je vektor délk k. Vektor náhodných složek o délce Tn má kovaranční matc E( uu' ) E( uu... E( uun E( uu' ) E( uu... E( uun V = E( uu' ) = = Ω I E unu E u nu E unu ( ' ) (... ( n rozměru Tn Tn. Parametr modelu (9) odhadujeme zobecněnou metodou nejmenších čtverců. V případě, že předpokládané vztah mez náhodným složkam exstují, ted není-l ω j = 0 př j, budou odhad parametrů vdatnější než př použtí metod nejmenších čtverců na každou rovnc zvlášť. Hausmanův test Případ () a () odlšující vlastnost ndvduálního efektu představují v prax krajnost, které zpravdla není dosaženo. Emprcké poznatk ukazují, že vjdeme-l z předpokladu (), mohou být odhadnuté parametr vchýlené směrem nahoru, zatímco předpoklad () spíše povede k vchýlení odhadů směrem dolů. Rozhodování mez () a () je možné podpořt provedením Hausmanova testu, který stručně popíšeme. Předpokládejme, že odhad provedený za předpokladu () posktl vektor parametrů β ( ) a kovaranční matc Σ (), zatímco předpoklad () vústl v β ( ) a Σ (). Testovat budeme statstku H = β β ) ( Σ Σ ) ( β β ), ( ( ) ( ) ( ) ( ) ( ) ( ) která asmptotck má χ test s k (= počet sloupců v matc ) stupn volnost. Nulovou hpotézou je, že platí předpoklad (). Podrobněj vz např. Green (003). udeme-l mít k dspozc θ jako odhad ze vztahu (5), lze postupovat takto (vz Johnston, DNardo, 997). Proměnné, transformujeme na t = t + θ, t = t + θ, dále defnujme t = t. Hausmanův test pak lze provést jakožto F test parametru γ ve vztahu = β + γ + u. Testována je hpotéza, zda vnechání ndvduálního efektu má vlv na konzstentnost odhadů, pokud tto bl proveden metodam tpu (). Lteratura [] DAVIDSON, R. MacKINNON, J., 993 Estmaton and Inference n Econometrcs. Oxford Unv. Press, 993. [] GREEN, W. H., 003 Econometrc Analss. Pearson Educaton Ltd. New Perse, 003. 84

Práce s panelovým dat [3] JOHNSTON, J. DNARDO, J., 997 Econometrc Methods. McGrawHll, 997. [4] PÁNKOVÁ, V., 005 Poptávka po kaptálu v tranztvních ekonomkách. Ekonomcký časops, 005, roč. 53, č., s. 9 8. ISSN 003-3035 [5] PÁNKOVÁ, V., 005 Tobnovo Q teore a aplkace. Poltcká ekonome, 005, roč. LIII, č. 5, s. 60 608. ISSN 003-333 Práce s panelovým dat Václava Pánková Abstrakt Panelová data vznkají opakovaným pozorováním určté skupn jednotek, např. domácností č frem, ale také celých ekonomk s některým společným charakterstkam jako třeba země EU5, tranztvní ekonomk, apod. Získáme tak více detalních nformací, které nám dovolí analzovat a zdůvodnt změn zkoumané ekonomcké struktur. Z řad možných odhadových technk chce tento článek upozornt na takové, které umožňují prác s velm krátkým časovým rozměrem panelových dat. Pro Českou republku a ostatní stále ještě relatvně nové trh jsou právě tto technk velm vhodné. Většna aplkací je spojena s rozlšováním vlastností ndvduálního efektu a v důsledku toho pak s volbou adekvátní metod pro odhad. Rozlšt model v tomto smslu umožňuje např. Hausmanův test. Klíčová slova panelová data; model s náhodným/sstematckým vlv; krátké časové řad; Hausmanův test. Econometrc models wth panel data Abstract Panel data are a result of repeatng observatons of a group of unts, e.g. households, frms, but also whole economes wth some common characterstcs as EU5, transton economes a. s. o. So, more detals are avalable enablng to analze a changng economc structure and ts reasonng. Specfc technques can be chosen to deal wth short tme seres what n case of Czech Republc, and other relatvel new markets, can be ver helpful. Most part of emprcal applcatons corresponds wth random or fxed effect models, respectve. To each of ths tpe approprate methods relate. An exact choce between both effects can be done b the help of Hausman test. Ke words panel data; random / fxed effects model; short tme seres; Hausman test. JEL classfcaton C3 85