Heteroskedasticita. Vysoká škola ekonomická Praha. Fakulta informatiky a statistiky. Katedra statistiky a pravděpodobnosti

Transkript

1 Vysoká škola ekonomická Praha Fakulta informatiky a statistiky Katedra statistiky a pravděpodobnosti Hlavní specializace : Statisticko-pojistné inženýrství Název diplomové práce: Heteroskedasticita školní rok : Diplomovou práci zpracoval : Petr SOUKAL Vedoucí diplomové práce: Prof. Ing. Petr HEBÁK, CSc. - -

2 Prohlašuji, že předkládanou diplomovou práci jsem zpracoval samostatně a všechny prameny a literaturu jsem uvedl v seznamu. V Praze dne. dubna podpis - -

3 Děkuji vedoucímu diplomové práce panu prof. Ing. Petru Hebákovi, CSc. za cenné připomínky

4 OBSAH strana Úvod... Klasický lineární regresní model Metoda nejmenších čtverců Odhad rozptylu náhodné složky Ověřování významnosti lineárního regresního modelu t-testy Celkový F-test Zobecněný lineární model Zobecněný lineární regresní model MZNČ Odhad matice W Metoda maximální věrohodnosti Heteroskedasticita Co je heteroskedasticita a jaké jsou její příčiny Vážená metoda nejmenších čtverců Odhadování parametrů lineárního modelu Matice W, popř. Ω je známa Rozptyly σ i nejsou známy Odhad σ i bez apriorních předpokladů Konstantní rozptyly v rámci podskupiny pozorování Směr. odchylky σ i jsou funkcí vysvětlujících proměnných Rozptyly σ i jsou lin. funkcí vysvětlujících proměnných Rozptyly σ i jsou funkcí střední hodnoty Multiplikativní heteroskedasticita Testování heteroskedasticity Konstruktivní testy Směr. odch. σ i jsou lin. funkcí vysvětlujících proměnných Rozptyly σ i jsou lin. funkcí vysvětlujících proměnných Multiplikativní heteroskedasticita Glejserův test Parkův test Nekonstruktivní testy

5 6.. Spearmanův test korelace pořadí Goldfeld-Quandtův parametrický test Goldfeld-Quandtův neparametrický test Breusch-Paganův test Bartlettův test BAMSET F test užívající BLUS rezidua F test užívající rekurzivní rezidua Závěr k testování Experimenty Experiment I Experiment II Experiment III Experiment IV Experiment V Experiment VI Experiment VII Experiment VIII Experiment IX Experiment X Výsledky experimentů Závěr... 7 Literatura Příloha Úvod - 5 -

6 Obsahem mé diplomové práce je heteroskedasticita v lineárním regresním modelu, problémy s ní spojené, možnosti její redukce a testování. Na následujících řádcích se pokusím tento pojem jednoduše nastínit. Standardní metody jednoduché a vícenásobné regrese předpokládají mimo jiné i předpoklad homoskedasticity (tj. podmínky, že všechna podmíněná rozdělení závisle proměnné Y mají stejnou směrodatnou odchylku (rozptyl)). Podrobně se těmito otázkami budu zabývat v kapitole. Pokud se testuje významnost parametrů regresní funkce, tak právě toto testování velmi výrazně závisí na splnění předpokladu homoskedasticity. Jinými slovy předpokladem homoskedasticity se rozumí, že rozptyl každé náhodné složky ε i kolem její nulové střední hodnoty nezávisí na hodnotách X. Rozptyl každého ε i zůstává pořád stejný bez ohledu na velké či malé hodnoty vysvětlující proměnné X. není funkcí Xj, neboli σ i je různé od f(x ). Příklad homoskedasticity v grafickém provedení je uveden na obrázku. σ ij Pokud σ není konstantní, ale jeho hodnoty záleží na hodnotách X je možno psát σ i = f(x ). Na následujících třech obrázcích jsou zobrazeny tři rozdílné formy heteroskedasticity ij ij (nepřítomnosti homoskedasticity). Rozložení pozorování na obrázcích záleží na formě heteroskedasticity (vztahu σ i a x ). Na obrázku na následující straně je zachycen případ monotonně vzrůstajícího rozptylu ε i, jak vzrůstají hodnoty X, vzrůstá i rozptyl ε. Je to nejběžnější forma heteroskedasticity, která se uvažuje v regresních modelech

7 Obrázek 3 ukazuje model klesající heteroskedasticity. Jak vzrůstají hodnoty X odchylky pozorování od regresní přímky klesají. Což znamená, že rozptyl náhodné složky se mění opačným směrem než vysvětlující proměnná (-é). Konečně na obrázku 4 na následující straně je zobrazena komplikovanější forma heteroskedasticity. Nejdříve rozptyl náhodné složky klesá s růstem hodnot X, ale po určité hodnotě x*, rozptyl ε vzrůstá s X

8 Z předcházejícího textu by mělo být jasné, že model heteroskedasticity záleží na znaméncích a parametrech vztahu σ i = f(x ). Pokud ovšem ε nelze pozorovat (v realitě vždy), ij i pak skutečný model heteroskedasticity není znám. V praxi se někdy například provádí předpoklad, že heteroskedasticita je ve formě σ i = k x ij, kde k je parametr. V realitě v mnoha konkrétních aplikacích se dá usuzovat na nedodržení předpokladu konstantního rozptylu náhodné složky. Jeden z důvodů je, že mnoho proměnných nezařazených do regresní funkce má většinou tendenci měnit se tím samým směrem jako proměnná X, čímž tedy způsobuje růst rozptylu pozorování kolem regresní přímky. Pro pochopení uvádím tři následující příklady. Příklad Předpokládejme, že máme vzorek dat rozpočtů domácností, ze kterých chceme měřit úsporovou funkci domácností: S i = β + β Y i + ε i, S i...úspory i-té domácnosti Y i...příjem i-té domácnosti. V tomto případě předpoklad konstantního rozptylu náhodných složek není vhodný, protože domácnosti s vyššími příjmy budou vykazovat mnohem vyšší variabilitu v jejich úsporovém chování, než vykazují domácnosti s nižšími příjmy. Ekonomická teorie ukazuje, že domácnosti s vyššími příjmy mají tendenci si udržet jistý životní standard a pokud jejich příjem poklesne, raději zredukují svoje úspory než spotřební výdaje. Naopak domácnosti s nižšími příjmy spoří s určitým záměrem (např. za účelem běžných měsíčních splátek nebo za účelem splácení dluhů) a tak jsou jejich úsporové modely přesnější. Z toho je patrné, že u domácností s vyššími příjmy bude ε i vysoké, zatímco u domácností s nízkými příjmy bude ε i malé. Předpoklad konstantního rozptylu ε tedy v případě odhadování úsporové funkce z průřezových dat rodinných rozpočtů není dodržen

9 Příklad Uvažujme vzorek firem určitého odvětví, který bude použitý za účelem odhadnutí Cobb-Douglasovy produkční funkce: y = β Lβ β K 3ε, L... množství práce firmy K... množství kapitálu firmy. ε v tomto případě zahrnuje faktory jako podnikavost, technologické rozdíly strojního zařízení, rozdíly v organizačních dovednostech a další faktory. V ε zahrnuté faktory se příliš významně nemění u malých firem. Naopak u velkých firem se dá očekávat, že se budou měnit podstatně více. Proto ε bude heteroskedastické. Příklad 3 Předpokládejme, že ekonomickou jednotkou je firma a že máme zájem odhadnout nákladovou funkci v daném odvětví. Ze vzorku firem použijeme údaje o jejich nákladech a outputu a budeme uvažovat model například ve tvaru y i = β + β x i + β 3 x i + ε i y i... průměrné náklady i-té firmy x i... output i-té firmy. Tato funkce je vhodná, pokud očekáváme průměrnou nákladovou funkci ve tvaru U. I v tomto případě je důvod se domnívat, že pokud output nabývá vyšších hodnot, tak jednotlivé hodnoty pozorování průměrných nákladů budou mít tendenci mnohem více kolísat kolem střední hodnoty, než když je output firmy malý. Jinými slovy hodnoty náhodné složky ε i budou pravděpodobně malé pro nízké hodnoty outputu a velké pro velké hodnoty outputu. Závěrem se dá říci, že v praxi jsou někdy a priori důvody věřit v porušení předpokladu homoskedasticity. Proto je poměrně důležité se zabývat důsledky heteroskedasticity na odhady parametrů a jejich směrodatných chyb. Používané testy významnosti regresních parametrů mohou vlivem heteroskedasticity dospět k chybným závěrům. Poznámka V následujícím textu se budu snažit dodržovat následující značení: X... matice n pozorování k vysvětlujících proměnných (včetně X jednotková proměnná) X j... j-tá vysvětlující proměnná, pokud X tak je to vysvětlující proměnná X x ij... i-tá hodnota j-té vysvětlující proměnné x i... i-té pozorování všech proměnných X j Y... vysvětlovaná proměnná y i... i-té pozorování vysvětlované proměnné Y y... vektor pozorování proměnné Y ε... náhodná složka (proměnná) ε i... i-tá hodnota náhodné složky ε... vektor náhodných složek

10 Klasický lineární model Klasický lineární model vyjadřuje explicitně lineární závislost jedné vysvětlované závislé proměnné na řadě vysvětlujících nezávisle proměnných a na aditivní náhodné složce. Jedná se tedy o lineární stochastický model, který se může vyjádřit např. ve tvaru Y = ΣX j β j + ε, (.) kde Y je vysvětlovaná proměnná X j... j-tá vysvětlující proměnná ε... náhodná či stochastická složka β j... j-tý parametr. Rovnici (.) lze také psát jako Y = xβ + ε, (.) x je řádkový vektor k vysvětlujících proměnných, včetně jednotkového vektoru členu, β je sloupcový vektor k parametrů, jehož první složka představuje absolutní člen rovnice (.). Odhadnuté parametry tohoto modelu vyjadřují kvantitativně vliv změny jednotlivé vysvětlující proměnné na hodnotu vysvětlované proměnné za předpokladu, že ostatní vysvětlující proměnné se nemění. k bude značit počet parametrů modelu. Označí-li se b j jako odhadnutá hodnota j-tého parametru, pak b j = Y, j =,,..., k, (.3) X j je odhadem intenzity separovaného působení j-té vysvětlující proměnné na Y. Protože odhad parametrů modelu je možný pouze na základě statistických dat, tj. pozorování jednotlivých proměnných, která jsou zpravidla představována konečným výběrem n hodnot vysvětlované proměnné a všech vysvětlujících proměnných, je možné základní lineární model (.) zapsat ve tvaru y = Xβ + ε (.4) nebo jako - 0 -

11 y x x... xk ε y x x... x k = ε β + (.5) y n xn xn... xnk ε n kde y je vektor napozorovaných hodnot vysvětlované závisle proměnné X... matice pozorování vysvětlujících nezávisle proměnných, ε... vektor nepozorovatelné náhodné složky modelu v každém z n pozorování, n... rozsah výběru. Z toho vyplývá, že každý z n řádků matice X je množinou hodnot všech vysvětlujících proměnných v jednom pozorování, zatímco každý z k sloupců této matice představuje množinu všech napozorovaných hodnot jedné vysvětlující proměnné, přičemž první vysvětlující proměnná nabývá ve všech pozorováních stejné hodnoty a to jedna. Rozdíl mezi počtem pozorování n a počtem parametrů k se nazývá počet stupňů volnosti, přičemž musí platit, že n je větší než k. Pro klasický lineární regresní model mají být splněny následující požadavky: ) E(ε i ) = 0 pro každé i =,,..., n, takže vektorově E(ε) = 0 n. Vektor ε je náhodný s nulovou střední hodnotou. Neuvažované vlivy systematickým způsobem nezkreslují regresní odhady. Z toho vyplývá, že vektor y je rovněž náhodný a je určen regresní funkcí Xβ a náhodným vektorem ε. ) D(ε i ) = σ pro každé i =,,..., n ( σ je neznámá kladná konstanta), C(ε i,ε i ) = 0 pro každé i i =,,..., n. Spojením obou podmínek se dostane C(ε) = σ In. První část podmínky je tzv. homoskedasticita. Tato část se týká rozptylů náhodné složky a vyjadřuje, že variabilita ε, ε,...,ε n nezávisí na hodnotách vysvětlujících proměnných. Z toho vyplývá, že i podmíněné rozptyly Y jsou nezávislé na hodnotách vysvětlujících proměnných a rovnají se stochastickému parametru tj. neznámé kladné konstantě matice C(ε) představují konečné a konstantní rozptyly náhodné složky. σ. Prvky na diagonále Druhá část podmínky se týká kovariancí různých dvou dvojic náhodných veličin ε i a ε i pro každé i i =,,..., n. Vyjadřuje podmínku nekorelovanosti různých dvojic pozorování vysvětlované proměnné Y. Nediagonální prvky C(ε) jsou nulové. - -

12 3) X je nestochastická matice. Vysvětlující proměnné jsou nenáhodné. Jsou pod kontrolou experimentátora, nezávisí tedy na výsledku provedených pokusů. Při opakovaných výběrech by pozorování vysvětlujících proměnných nabývala stejných hodnot, jediným zdrojem variability Y v různých výběrech je tedy pouze měnlivost vektoru náhodných složek. Matice X je tedy nenáhodná. 4) Matice X má hodnost h(x) = k, kde n k. Ke splnění této podmínky je třeba, aby mezi vysvětlujícími proměnnými nebyla funkční (lineární) závislost. Matice X nesmí obsahovat perfektně lineárně závislé sloupce, aby soustava normálních rovnic (.5) byla jednoznačně řešitelná. Splnění této podmínky znamená, že X X je symetrická nesingulární matice řádu k, takže existuje k ní jednoznačná inverzní (X X) -, která hraje klíčovou roli při odhadu parametrů modelu metodou nejmenších čtverců. Zároveň je třeba, aby počet pozorování nebyl menší než počet neznámých parametrů. V praxi je užitečné, aby počet pozorování n byl výrazně vyšší než počet neznámých parametrů k. K určení odhadových funkcí parametrů lineárního regresního modelu (.4) metodou nejmenších čtverců není třeba předpokládat žádné konkrétní rozdělení pravděpodobnosti náhodných složek a tedy ani reziduí. Avšak aby bylo možné získat intervalové odhady parametrů a odvodit výběrová rozdělení odhadových funkcí, popř. testovat i určité hypotézy týkající se vlastností lineárního regresního modelu, je vhodné k již uvedeným předpokladům přidat ještě požadavek následující. 5) ε i mají normální rozdělení pro každé i =,,..., n. Vektor ε má n-rozměrné normální rozdělení s nulovým vektorem středních hodnot a s kovarianční maticí σ In. Důsledkem podmínky normálního rozdělení náhodného vektoru ε je i normální rozdělení náhodného vektoru y. Rovněž podmíněná rozdělení Y odpovídající různým kombinacím hodnot vysvětlujících proměnných jsou normální a náhodný vektor y má n-rozměrné normální rozdělení s vektorem středních hodnot Xβ a kovarianční maticí σ In. 6) Parametry β j, j =,,..., k, mohou nabývat libovolných hodnot. Na vektor β nejsou kladeny žádná omezení či požadavky. Tj. nemáme o hodnotách parametrů žádné předběžné podmínky. - -

13 V praxi je téměř nemyslitelné bez ověření platnosti výše uvedených předpokladů hovořit o vlastnostech regresních odhadů. Nelze očekávat, že tyto předpoklady platí automaticky. V následující kapitole 3 budu výše uvedené podmínky oslabovat.. Metoda nejmenších čtverců Jsou-li splněny první čtyři předpoklady, lze na základě výběru n pozorování vysvětlované proměnné a všech k vysvětlujících proměnných odhadnout vektor parametrů lineárního regresního modelu metodou nejmenších čtverců (MNČ). Je-li v souladu s prvním předpokladem střední hodnota vektoru ε rovna nule, pak E(y) = Xβ + E(ε) = Xβ. (.6) Takže střední hodnota vysvětlované proměnné je rovna pouze systematické složce modelu. Odhad regresních koeficientů Označí-li se b odhadová funkce vektoru parametrů β, získaná metodou nejmenších čtverců pak lze psát y = Xb + e (.7) popř. $y = Xb (.8) kde e je vektor reziduí odpovídající odhadu $ε, $y... vektor odhadnutých hodnot vysvětlované proměnné. Na základě definice odhadované funkce, lze odhad vektoru parametrů β získat minimalizací součtu čtverců reziduí e e. Dospěje se k tzv. normálním rovnicím nejmenších čtverců z nichž se vyjádří odhadová funkce vektoru β, založená na kritériu nejmenších čtverců ve tvaru b = (X X) - X y. (.9) Protože matice druhých parciálních derivací ee b b opravdu dosažení minima (.9). je pozitivně definitní, vektor b zaručuje - 3 -

14 Vlastnosti : ) Protože (X X) - X je matice konstant, prvky vektoru b jsou lineárními funkcemi vektoru y. Nebo-li odhadová funkce (.9) je lineární transformací y. Tudíž b je lineární odhadová funkce. Vzhledem k tomu, že y závisí na náhodné složce, je b stochastického charakteru. ) Střední hodnota odhadové funkce b, získané opakovaným výběrem pozorování vektoru y je β, nebo-li odhadová funkce MNČ (.9) je nestranná. 3) Odhadová funkce (.9) je nejlepší lineární nestranná odhadová funkce vektoru β. Aby se mohly posoudit rozptyly a kovariance odhadové funkce MNČ je nutné stanovit kovarianční matici odhadové funkce b tj. C(b) = E[(b - β )(b - β ) ] = (X X) - X E[(uu )X(X X) - ] = σ In (X X) - X X(X X) - = σ (X X) -. (.0) Označí-li se libovolná lineární odhadová funkce vektoru β, různá od odhadové funkce MNČ např. jako b*, lze ukázat, že C(b*) je větší nebo roven C(b), rozdíl kovariančních matic C(b*) - C(b) je tedy pozitivně semidefinitní matice. Nebo-li, že E(b j * - β j ) E(b j - β j ), j =,,..., k, (.) kde b j jsou prvky odhadové funkce b. Důkazy výše uvedených tvrzení viz. například Hušek, Ekonometrie, 976. Jinými slovy, odhadová funkce b, získaná MNČ má nejmenší výběrový rozptyl ze všech lineárních nestranných odhadových funkcí vektoru β. Tím by se zároveň dokázala i tzv. Gaussova-Markovova věta, která říká, že při splnění předpokladů, které se týkají matice X pro použití MNČ, je odhadová funkce b získaná MNČ ve tvaru (.9) nejlepší lineární nestranná odhadová funkce, takže jakákoli odhadová funkce vektoru β, která je také lineární formou vektoru y, a zároveň nestranná, má kovarianční matici složenou z kovarianční matice b a navíc z pozitivně semidefinitní matice

15 . Odhad rozptylu náhodné složky K výpočtu kovarianční matice odhadnutých parametrů C(b) je potřeba znát i odhad rozptylu náhodné složky, neboť skutečnou hodnotu σ nelze určit vzhledem k tomu, že hodnoty náhodných složek nelze získat pozorováním. Označí-li se odhad σ jako $σ, pak lze ukázat, že při odvození odhadové funkce rozptylu náhodné složky je možno vyjít z rozptylu vektoru reziduí e, spočteného na základě MNČ. Vyjádří-li se střední hodnota součtu čtverců reziduí, dostane se E(e e) = σ (n - k), (.) rozptyl náhodných složek lze tudíž psát jako σ = E(e e)/(n - k), takže statistika $σ ve tvaru $σ = (e e)/(n - k) (.3) je nestrannou odhadovou funkcí rozptylu náhodné složky, získanou pomocí MNČ, protože platí, že E( $σ ) = σ. e e je reziduální součet čtverců a k je počet parametrů regresní funkce. Nyní je možné přistoupit i k numerickému určení kovarianční matice odhadnutých - parametrů C(b). Protože inverzní momentová matice (X X) je nestochastická a $σ je nestrannou odhadovou funkcí rozptylu odhadů parametrů, určených MNČ statistika S(b), daná výrazem σ σ, je nestrannou odhadovou funkcí kovarianční matice S(b) = $σ - (X X). (.4) Odmocniny diagonálních prvků této matice jsou odhadnuté směrodatné chyby regresního lineárního modelu, které se používají nejen jako míry přesnosti bodové odhadové funkce MNČ b, ale i při intervalovém odhadu a při testování statistické významnosti bodových odhadů parametrů

16 .3 Ověřování významnosti lineárního regresního modelu K určení odhadových funkcí parametrů lineárního regresního modelu (.4) MNČ nebylo zase úplně nutné předpokládat nějaké konkrétní rozdělení pravděpodobnosti náhodných složek a tedy ani reziduí. Aby bylo možné dostat intervalové odhady parametrů a bylo možné odvodit výběrová rozdělení odhadových funkcí, popř. testovat i určité hypotézy týkající se vlastností lineárního regresního modelu, je nutné k prvním čtyřem předpokladům přidat ještě požadavek, aby n-rozměrný vektor náhodných složek měl normální rozdělení s nulovou střední hodnotou a kovarianční maticí E(εε ) = σ I n, takže lze psát ε ~ N(0,σ I n ), (.5) přičemž funkce vektoru ε má tvar f(ε) = (πσ ) -n/ exp[-ε ε /(σ )]. (.6) Při předpokladu normality je odhadová funkce MNČ pro parametry modelu identická s odhadovou funkcí metody maximální věrohodnosti (MMV)..3. t-testy Protože bodová odhadová funkce parametrů b poskytuje výběrové odhady b, b,..., b k na základě jednoho výběru pozorování ze základního souboru, musí se testovat jejich statistická významnost. Z předpokladu normality náhodných složek plyne, že také stochastická odhadová funkce b má normální rozdělení s vektorem středních hodnot rovných β a s kovarianční maticí σ (X X) -. Pokud by byl konstantní rozptyl náhodných složek znám, dalo by se použít předpokladu b ~ N[β, σ (X X) - ], (.7) jako východiska k testování hypotéz o skutečných hodnotách jednotlivých parametrů. Ve skutečnosti však σ není znám a proto se vychází při testování významnosti parametrů z jeho nestranného odhadu MNČ. Pokud je nestranný odhad σ znám, určí se i nestranné odhady rozptylů odhadnutých parametrů b na základě (.4). Odmocniny odhadů rozptylů σ $ $ σ x b = jj na

17 diagonále odhadu pro kovarianční matice S(b) jsou odhady směrodatných chyb bodových odhadů β j, takže pro ně platí $ σ = $ σ x, j =,,..., k a x jj je diagonální prvek (X X) -. b j jj Nediagonální prvky (.4) představují odhadnuté kovariance dvojic bodových odhadů, neboli cov(b j b j ) =, j j. $σ x jj Podíl b j β j σ b j je standardizovaná normální proměnná s nulovým průměrem a jednotkovým rozptylem, takže poměr t j b j β j = σ$ b j (.8) má pro každé j Studentovo rozdělení t s (n - k) stupni volnosti. Testovací statistika (.8) je vhodná především pro malé výběry (n < 30). Pohybuje-li se počet stupňů volnosti kolem 30, pak rozdíly mezi kritickými hodnotami rozdělení t a normovaného normálního rozdělení jsou již malé. Testovací statistika (.8) umožňuje testovat hypotézy, týkající se skutečné hodnoty libovolného parametru β j. ) Pokud je potřeba testovat nulovou hypotézu, že skutečná hodnota parametru β j = m j proti alternativní hypotéze β j m j, použije se jako testovací statistika veličina t j b = j m $σ b j j. (.9) Platí-li při použití dvoustranného testu t j > t α/, nebo-li absolutní hodnota vypočteného t j je větší než tabelovaná kritická hodnota t α/ pro (n - k) stupňů volnosti, pak se na α% hladině významnosti nulová hypotéza odmítne ve prospěch alternativní hypotézy. V opačném případě kdy t α/ t j, se nulová hypotéza na dané hladině významnosti akceptuje. ) Velmi často se testuje nulová hypotéza, že libovolný parametr β j = 0, což znamená, že příslušná vysvětlující proměnná X j nemá žádný vliv na vysvětlovanou proměnnou Y

18 V takovém případě se statistika t j zjednoduší, neboť vzhledem k (.9) se pro j-tý parametr dostane t j b j =. (.0) $σ b j Testovací statistika (.0) se nazývá t poměr a někdy se používá jako míra přesnosti bodových odhadů parametrů místo odhadnutých směrodatných chyb. Pomocí tohoto poměru se posuzuje statistická významnost j-tého parametru tak, že nulová hypotéza β j = 0 se akceptuje když t α/ t j pro hladinu významnosti α a (n - k) stupňů volnosti, nebo-li s pravděpodobností 00(-α) procent se dá usuzovat, že bodový odhad b j není statisticky významný. Platí-li naopak, že t j > t α/, nulová hypotéza β j = 0 se odmítne a konstatuje se, že vysvětlující proměnná X j je z hlediska svého vlivu na vysvětlovanou proměnnou Y významnou proměnnou na hladině významnosti α a při (n - k) stupních volnosti..3. Celkový F-test Obdobným způsobem, jakým se testuje významnost jednotlivého parametru, nebo se určuje jeho interval spolehlivosti na základě rozdělení t, lze postupovat v případě, kdy se testuje významnost nebo kdy je nutné stanovit interval spolehlivosti více parametrů najednou. Místo z rozdělení t se však vychází z rozdělení F, jehož testovací statistika je podílem dvou nezávislých rozdělení χ s počtem stupňů volnosti (k - ), popř. (n - k). Takže podíl F = ( b β ) X X ( b β ) ( n k) ( y Xb) ( y Xb) ( k ) (.) má rozdělení F s počtem stupňů volnosti (k - ) a (n - k). Tuto statistiku lze použít platí-li, že Y má nulový průměr, k získání simultánního intervalu spolehlivosti pro všechny složky vektoru b současně i k testování významnosti odhadnutého modelu jako celku. V případě pouze dvou parametrů je interval spolehlivosti dán elipsou, pro k parametrů je pak výsledkem k-rozměrný elipsoid spolehlivosti. Celkový F-test neumožňuje posoudit, zda všechny proměnné jsou v regresní funkci užitečné, ani zda bylo potřeba zařadit do rovnice další, či jiné proměnné. V aplikacích je tedy třeba dát pozor na přecenění výsledku zamítnutí Ho : β = β =... = β k

19 Na základě t, resp. F testů se nemusí vždy dospět k jednoznačnému závěru. Často se při ověřování statistické významnosti stává, že F-test je signifikantní, ale některé nebo všechny parametry nikoliv, nebo naopak F-test je nevýznamný a většina nebo všechny parametry významné jsou. V takových situacích je těžké rozhodnout, zda se přisoudí větší váha F-testu, nebo směrodatným chybám odhadnutých parametrů modelu

20 3 Zobecněný model 3. Zobecněný lineární regresní model V aplikacích lineárního regresního modelu nebývají některé požadavky týkající se vlastností vektoru náhodných složek ε splněny. Proto je nutné předpoklady o charakteru vektoru ε do jisté míry uvolnit a použít při kvantifikaci modelu odpovídajícím způsobem modifikované metody odhadu parametrů. Obecně se postupuje tak, že v prvním kroku, který má diagnostický charakter se na základě vhodných testovacích charakteristik ověřuje, který z klasických požadavků (pokud jde o náhodnou složku lineárního modelu) a v jaké míře není splněn. Následuje úprava základní struktury modelu, použitých statistických dat nebo odhadových metod. Zobecněným lineárním modelem se rozumí klasický lineární regresní model y = Xβ + ε se změněnou podmínkou týkající se kovarianční matice ε, a tedy i y. Předpoklad E(ε) = 0 tedy zůstává v platnosti. Rozdíl mezi klasickým a zobecněným modelem spočívá v tom, že místo kovarianční matice C(ε) = C(y) = σ I n se zavádí obecnější kovarianční matice Ω = σ W s rozptyly D(ε i ) = D(y i ) = σ i = σ w ii, i =,,..., n, a s kovariancemi C(ε i,ε i ) = C(y i,y i ) = σ ii = σ w ii pro každou dvojici i i =,,..., n. V klasickém lineárním modelu se předpokládá, že jednotlivé rozptyly jsou stejné a rovnají se nějaké neznámé konstantě σ. Proti tomu se v zobecněném modelu připouští, že tyto rozptyly nemusí být nutně všechny stejné a jsou to (většinou neznámé) konstanty. σ i Pro obecné řešení a snažší přehlednost je výhodné je zapsat ve formě σ i = σ w ii, kde w ii jsou kladné konstanty (váhy). Podobně se v klasickém modelu předpokládá, že dvojice náhodných složek ε i a ε i (popř. y i a y í ) jsou nezávislé, zatímco zobecněný model připouští možnost závislosti jednotlivých pozorování. Z věcného hlediska jde o dva samostatné problémy heteroskedasticity a autokorelace. Pro obecné řešení je možné zkoumat oba případy společně, já se budu zabývat pouze heteroskedasticitou a kovarianční matici ε (popř. y) zapsat maticově ve tvaru - 0 -

21 σ σ... σ n σ σ σ C(ε) = C(y) = Ω =... n σ n σ n... σ n w w... w n w w w n = σ wn wn... wnn = σ W. Z vlastností rozptylu vyplývá, že na diagonále matice jsou kladná čísla (w ii 0 pro každé i), že matice W je symetrická ( w ii = w i i pro každou dvojici i i ) a navíc je i pozitivně semidefinitní (vyplývá z nerovnice E(ε i ε i ) [E(ε i )E(ε i ) / ] řádu n). Rovněž se předpokládá, že matice W - existuje. Symetrická matice W se normuje tak, že st W = n, nebo-li průměr diagonálních prvků kovarianční matice C(ε) je, což je rozptyl náhodných složek εi. Je-li W = I n, model se redukuje na standardní lineární regresní vztah. σ 3. MZNČ Podstatou této metody, někdy také nazývané Aitkenův odhadový postup je vhodná transformace zobecněného lineárního modelu, která zajistí splnění podmínky C(ε) = a umožní následný odhad takto modifikovaného modelu klasickou MNČ. σ In Pokud se předpokládá, že ostatní předpoklady klasického lineárního modelu (.4) zůstávají v platnosti, existují různé možnosti určení nejlepšího lineárního nezkresleného odhadu vektoru β. Tato metoda musí vycházet ze znalosti matice W. Jednou z možností je nalézt matici T takovou, aby platilo T T=W - (3.) takže TWT = I n. Pokud se rovnice y = Xβ + ε vynásobí zleva nesingulární čtvercovou maticí T řádu n získá se Ty = TXβ + Tε (3.) neboli y* = X*β + ε* (3.3) což lze interpretovat jako lineární regresní model s vektorem n vysvětlovaných proměnných y* = Ty, ve kterém X* = TX je matice k nových vysvětlujících proměnných a ε* = Tε je - -

22 vektor náhodných složek. Výhodou této úpravy je okolnost, že pro náhodnou složku ε* platí klasická podmínka C(ε*) = σ In. Nebo-li E(ε*ε* ) = E(Tεε T ) = σ TWT = σ In. Neboť matice transformace T je volena tak, že (3.) vyhovuje předpokladům kladeným na klasický lineární regresní model a odhadová funkce vektoru β založená na MNČ má optimální vlastnosti (uvedené v předcházející části klasický lineární regresní model). Použije-li se MNČ k odhadu parametrů transformovaného modelu (3.), získá se b = (X *X*) - X* y* = (X T TX) - X T Ty = (X W - X) - X W - y (3.4) což je tzv. Aitkehova odhadová funkce, odvozená metodou zobecněných nejmenších čtverců (MZNČ), pro vektor β zobecněného lineárního modelu (3.). Odhadová funkce MZNČ vektoru β, definovaná výrazem (3.4), je opět nejlepší lineární nestrannou odhadovou funkcí. Jde o odhadovou funkci MNČ, aplikovanou na standardní lineární regresní model (3.) popř. (3.3) obsahující transformované proměnné. Je-li vektor ε rozdělen normálně, má normální rozdělení i vektor ε*, takže lze při statistickém ověřování významnosti transformovaného modelu (3.) nebo (3.3) použít např. testy uvedené v předcházejících podkapitolách.3. Použije-li se k odhadu vektoru β MNČ i v případě, že W není rovno I n, pak odhadová funkce MNČ vektoru β si sice zachová vlastnosti nestrannosti, avšak její kovariační matice bude větší než při odhadu β pomocí MZNČ. Tzn., že odhadová funkce MNČ, aplikovaná přímo na zobecněný lineární model, kde E(εε ) = σ W, přestává být nejlepší lineární nestrannou odhadovou funkcí vektoru β, neboť nesplňuje požadavek minimálního rozptylu. Kovarianční matice odhadové funkce MZNČ (3.4) je dána výrazem C(b) = σ - (X* X*) = σ (X W - X) -. (3.5) Nevychýlený odhad σ se získá obdobně jako v KLM. E(e W - e ) = σ (n - k) takže nevychýlený odhad σ je $σ = (e W -e)/(n - k). (3.6) Zobecněný rozptyl (3.6) je nezkresleným odhadem stochastického parametru σ. - -

23 Odhadovou funkcí kovarianční matice C(b) je tudíž statistika S(b) ve tvaru S(b) = $σ (X W - X) -. (3.7) Pokud by se nerespektovala skutečnost, že podmínka E(εε ) = σ In není splněna bude odhad σ na základě $σ dokonce zkreslený. Intervaly spolehlivosti a testy hypotéz pak nebudou mít velkou cenu. Pokud se respektuje okolnost, že E(εε ) = σ W, a bude se vycházet ze skutečnosti, že matice W je známa, pak pomocí (3.4) se vypočte odhadová funkce MZNČ, jakož i směrodatné chyby, takže je možné určit i hodnoty obvyklých testovacích statistik, včetně intervalů spolehlivosti jednotlivých parametrů β Praktické řešení problému je ovšem výrazně složitější než řešení teoretické. Vzniká celá řada otázek, jako např.: Jak se identifikuje domněnka o stejných rozptylech a (nebo) nulových kovariancích? Kdy použít MZNČ místo MNČ? Známe matici W? Jakým způsobem se odhadne? Pokud se nahradí W jejím odhadem, zůstane zobecněný odhad kvalitní? Ve většině úloh je matice W neznámá a konstruuje se ex post, tj. teprve po odhadu (.4) MNČ na základě spočtených reziduí, přičemž způsoby transformace (.4) na (3.) se liší v případě heteroskedasticity a autokorelace. j. 3.3 Odhad matice W v zobecněném lineárním modelu V praktických situacích je většinou nutné slevit z předpokladu znalosti matice Ω, popř. W. A musí se hledat vhodný odhad matice W a následně se tento odhad použije k odhadu β. Výše uvedený odhad odhadu se vyjadřuje jako $ β = (X W$ - X) - X W$ - y. (3.8) Odhad n rozptylů na základě n pozorování nepřichází většinou bez určitých omezení, či dodatečných předpokladů v úvahu. Jednotlivými typy heteroskedasticity a následnými odhady diagonálních prvků matice Ω se zabývám v následujících kapitolách. Určení konečných vlastností odhadu (3.8) je obecně obtížný problém mimo jiné protože $ β = (X W$ - X) - X W$ - y = β + (X W$ - X) - X W$ - ε

24 Úsudky o β jsou založené na asymptotických vlastnostech $ β a pro některé specifické funkce W(θ), kde θ je nějaký vektor parametrů či parametr na jehož určení závisí i odhady W. Existují dva obecné výsledky, které patří ke konečným vlastnostem odhadu $ β. Pokud rozdělení ε je symetrické kolem 0 a W $ je sudá funkce reziduí e tj. ( W $ (e) = W $ (-e)) $ $ potom je β nevychýlený odhad β (pokud existuje E( β ) ). Pro druhý výsledek platí kde $σ = $e W $ - $e /(n - k) $ $e = y - X β a nechť $θ je odhad θ (neznámého parametru, či vektoru parametrů W) je získán pomocí reziduí z MNČ. Potom např. Breusch, A Simple Test for Heteroscedasticity and Random Coefficient Variation, 980 dokázal, že rozdělení ( β - β)/σ, $ $ σ /σ a $e /σ nezávisí na β a σ. Tento fakt má význam při plánování simulačních experimentů. Vlastnosti EGLS v konečných výběrech nejsou obecně odvoditelné. Je pouze možné spoléhat se na asymptotické vlastnosti a pro konečné výběry na výsledky simulačních experimentů. Tyto experimenty jsou, ale pouze konkrétními specifickými modely a je tedy nebezpečné provádět obecná zevšeobecnění. Nicméně se ukazuje, že odhady EGLS budou častěji lepší než odhady MNČ, alespoň pro větší rozsahy výběrů. Je jasné, že to neplatí vždy. Například pokud by platilo, že $β = b budou mít oba odhady minimální rozptyly a tedy b má $ menší rozptyl než β. Asymptotické výsledky jsou obecnější. Pokud se předpokládají dodatečné podmínky je možné odvodit odhadové funkce pro Ω, stejně jako odhady MZNČ a EGLS pro β, takové aby byly konzistentní. Dostatečné podmínky, aby odhady MZNČ a odhady (EGLS) byly konzistentní a měli stejné asymptotické rozdělení jsou : lim n - (X Ω - X) = Q, (3.9) kde Q je konečná a nesingulární matice; - 4 -

25 a p lim n - X ( $ Ω - - Ω - )X = 0 (3.0) p lim n -/ X ( $ Ω - - Ω - )ε = 0 (3.) Pokud jsou tyto podmínky dodrženy, n( $ β $ β) konverguje podle pravděpodobnosti k nule, obě odhadové funkce budou asymptoticky normální se střední hodnotou β a kovarianční maticí n - σ Q -. Pokud navíc platí p lim n - e ( $ Ω - - Ω - )e = 0 (3.) potom oba odhady a $ $σ = [(y - X β ) $ Ω - $ (y - X β )]/(n - k) $σ = [(y - X $ β ) $ Ω - (y - X $β )]/(n - k) jsou konzistentní odhady σ. Tyto podmínky, jestliže jsou splněny, znamenají, že pokud se podaří nalézt matici T $ takovou, že platí T $ T $ = $ Ω -, mohou být obvyklé procedury aplikované na transformovaný model T $ y = T $ Xβ + T $ ε asymptoticky spolehlivé. Podmínky (3.9) - (3.) jsou obecné podmínky, které mohou být ještě konkrétnější, pokud se vezmou v úvahu nějaké další předpoklady o Ω. 3.4 Metoda Maximální věrohodnosti Za předpokladu, že v modelu y = Xβ + ε má náhodný vektor ε normální rozdělení s nulovým vektorem středních hodnot a s kovarianční maticí σ W(θ), kde W(θ) vyjadřuje, že matice W závisí na h-členném vektoru parametrů θ. Po vynechání nepotřebných proměnných má logaritmus věrohodnostní funkce tvar logl = (-n/)logσ - (/)log W - (/σ )(y - Xβ) W - (y - Xβ). (3.3) Maximalizace (3.3) vzhledem k β a σ vede k ~ β = (X W(θ) - X) - X W(θ) - y (3.4) ~ ~σ = (y - X β ) W(θ) - ~ (y - X β )/n. (3.5) - 5 -

26 Obvyklý postup je takový, že se nejdříve maximalizuje (3.3) vzhledem k θ získaný $θ se použije v W( $θ ) = W $. Díky vlastnostem metody maximální věrohodnosti jsou výsledné odhady pro β a σ asymptoticky vydatné. Většinou je ale třeba užít pro řešení některou z metod umožňující řešení soustavy nelineárních rovnic. 4 Heteroskedasticita - 6 -

27 4. Co je heteroskedasticita a jaké jsou její příčiny Podmínka klasického lineárního regresního modelu v sobě zahrnuje především požadavek konečného a konstantního rozptylu náhodných složek, a tudíž i reziduí modelu, který se označuje jako homoskedasticita. V opačném případě se jedná o heteroskedasticitu. S tímto modelem je možné se setkat především při odhadu parametrů z průřezových dat, kdy dochází k velkým změnám v hodnotách vysvětlujících proměnných. Mnohem méně se heteroskedasticita objevuje při odhadu modelu z časových řad. Tři příklady měnícího se rozptylu náhodných složek, a tedy i rozptylu vysvětlované proměnné jsem uvedl v první kapitole, jednalo se o úsporovou funkci domácností (s rostoucími příjmy domácností roste variabilita jejich úspor), Cobb-Douglasovu produkční funkci (rozptyl objemu produkce se zpravidla přímo úměrně mění s počtem zkoumaných firem nebo jejich velikostí) a odvětvovou nákladovou funkci. Někdy je z ekonomické praxe a priori nezbytné předpokládat porušení podmínky homoskedasticity. V dalším textu budu všude předpokládat existenci pouze samotné heteroskedasticity bez existence autokorelace. Příčiny heteroskedasticity jsou především ) Jak jsem již uvedl mikro či makro ekonomická data nabývají značně rozdílných hodnot v jednom náhodném výběru pozorování, takže rozptyl vysvětlované proměnné, a tím i reziduí, je často funkcí některé vysvětlující proměnné. ) Chybná specifikace modelu, spočívající ve vynechání některé podstatné vysvětlující proměnné. Takto vynechaná proměnná je pak zahrnuta v náhodné složce a pokud má podobný průběh jako vysvětlovaná proměnná, tj. vyšší hodnota vysvětlované proměnné je důsledkem vyšší hodnoty vysvětlující proměnné, způsobuje růst variability vysvětlované proměnné, kterou vysvětlující proměnné zahrnuté do modelu nepostihují. 3) Při výskytu chyb měření dochází k jejich kumulaci s rostoucí vysvětlovanou proměnnou a tím se zvětšuje její rozptyl i rozptyl reziduí

28 4) Heteroskedasticita rovněž přirozeně vzniká v modelech s náhodnými parametry (Hildreth a Houck, Some Estimators for Linear Model with Random Coefficients, 968). V tomto případě se uvažuje k k y = β x = ( β + v ) x = β x +ε (4.) i ij ij j ij ij j= j= j= k j ij i kde ε i = k j= v x iji iji, E(v ij ) = 0, E(v ij v ij ) = 0 pro j j nebo i i, a E(v ij ) = α j. k α j x ij j= To implikuje, že E(e i ) = 0, E(e i e i ) = 0 pro i i a σ i = E(e i ) =. Tedy každý parametr, β ij se považuje za náhodnou veličinu se střední hodnotou β j a odhad vektoru středních hodnot β = (β, β,..., β k ) je možno uskutečnit MZNČ. MZNČ, ale vyžaduje odhad α j, tento odhad se potom použije k odhadu odhadové funkce β MZNČ. 5) Použijí-li se k odhadu parametrů modelu nikoliv původní pozorování, nýbrž například skupinové průměry, spočtené z tříděných údajů. Poslední příčinu zdokumentuji na příkladě. Příklad 4 Nechť y ij je sklizeň určité plodiny z i-tého hektaru j-té farmy, x ij a x ij představují množství vložené práce a množství vloženého kapitálu na i-tý hektar j-té farmy, i =,,..., N j, j =,,..., n, kde N j je počet hektarů (s nějakou plodinou) u j-té farmy a N = Pokud by byla tato data dostupná, může se předpokládat například model: n j= N j. y ij = β 0 + β x ij + β x ij + ε ij, (4.) kde platí E(εε ) = σ I n, ε = (ε, ε,...,ε n ), ε j = (ε j, ε j,..., ε NjJ ). Většinou jsou, ale k dispozici data která představují jen průměrné hodnoty z jednotlivých n farem. Zajímá nás vlastně regresní funkce y j = β 0 + β x j + β x j + ε j, (4.3) kde y j = N j Nj i= y ij a podobně i další průměry x,x j j

29 V tomto případě platí E( ε j ) = 0, a E( ε ) = j Nj N E jσ σ ε ij j i NN j N j = = =. (4.4) Ačkoliv ε ij jsou nekorelované a mají stejný rozptyl σ pro každé i =,,..., N j, j =,,..., n, jsou agregovaná data heteroskedastická s nestejnými rozptyly σ N j. Pokud se znají váhy N j (celkový počet hektarů u j-té farmy) je velmi jednoduché matici W - určit jako W - = diag (N, N,..., N n ) a použít ji k odhadu β MZNČ. Agregací hektarů se data stala heteroskedastickými. Předpokládejme, že náhodné složky ε i nemají konstantní rozptyly, ale jsou nezávislé. Kovarianční matice náhodných složek má pak tvar σ σ C(ε) = = Ω σ n Zapíše-li se každý rozptyl ve formě σ i = σ w i, je možné matici Ω zapsat jako w Ω = σ 0 w w n = σ W. n Výhodné je zavést podmínku st(w) = w i = n. Pro obecné řešení odhadu vektoru β i= v modelu y = Xβ + ε je lhostejné, zda se pracuje s maticí Ω nebo s maticí W. Konstanta σ nic nemění na tom, že nejlepším lineárním nezkresleným odhadem β je zobecněný odhad $β = (X Ω - X) - X Ω - y= (X W - X) - X W - y (4.5) s kovarianční maticí σ (X Ω - X) -. σ odhadujeme pomocí $σ = e Ω - e/(n - k), což je jeho nevychýlený odhad Pro odhad β není podstatné, zda se pracuje přímo s rozptyly σ i nebo s maticí vah wi

30 Pokud by se za předpokladu Ω I n, β odhadovala pomocí b = (X X) - X y místo (4.5), tak $β zůstává stále nevychýlenou odhadovou funkcí β, ale odhad již není vydatný, protože nemá minimální rozptyl. Protože její kovarianční matice je nyní C(b) = E[(b - β)(b - β) ] = E[(X X) - X εε X(X X) - ]= σ (X X) - (X Ω - X)(X X) -, obvyklý vzorec pro kovarianční matici není vhodný a rovněž v předchozí kapitolách bylo ukázáno, že odhadová funkce pro σ je vychýlená. Heteroskedasticita způsobuje, že odhady parametrů získané klasickou MNČ, ztrácejí některé optimální vlastnosti. Lze dokázat, že i při nedodržení požadavku konečného a konstantního rozptylu poskytuje MNČ nestranné a konzistentní bodové odhady regresních parametrů, které však ztrácejí vydatnost i asymptotickou vydatnost. Odhady rozptylů a směrodatných chyb odhadnutých regresních parametrů nelze získat pomocí vzorců, odvozených pro případ homoskedasticity, takže běžné testy statistické významnosti, ani intervalový odhad nejsou použitelné. Při aplikaci obvyklých odhadových funkcí pro směrodatné chyby odhadů, bez ohledu na měnící se rozptyl náhodných složek, se dospěje k vychýleným odhadům směrodatných chyb, takže intervalový odhad je podhodnocený nebo nadhodnocený a výsledky testů jsou také nereálné

31 4. Vážená metoda nejmenších čtverců Předtím než začnu popisovat jednotlivé heteroskedastické struktury, pokusím se na- stínit použití MNČ a MZNČ za obecného předpokladu, že Ω = diag ( σ, σ,..., σ n ). V této souvislosti se MZNČ někdy také nazývá vážená metoda nejmenších čtverců. K důvodu tohoto názvu uvádím příklad. Příklad 5 i-té pozorování rovnice y = Xβ + ε lze zapsat jako y i = x i β + ε i, (4.6) a odhadová funkce získaná MZNČ je tedy dána n n n n $β = ( X Ω X) X Ω * * y = σ i xx i i σ i xi yi = xx i i xi * yi* i= = (X* X*) - X* y* (4.7) kde x i * = x i /σ i, y i * = y i /σ i, X* = TX, y* = Ty, T = diag ( σ, σ,..., σ n ) a platí T T = Ω -. Nebo-li MZNČ je MNČ uplatněná na transformovaný model Ty = TXβ + Tε, jehož i-té pozorování je y i /σ i = x i β /σ i + ε i /σ i. (4.8) Každé z těchto pozorování je váženo převrácenou hodnotou směrodatné odchylky odpovídající náhodné složky a odhadová funkce MZNČ vlastně minimalizuje n i= ε i σ i i= i= i=, součet čtverců vážených reziduí. Spolehlivější pozorování (tj. ty s relativně nízkou σ i ) jsou váženy mnohem více a hrají větší roli v procesu odhadování než ty pozorování, která jsou méně spolehlivá. Pokud bych se vrátil k příkladu, kde se používala zprůměrovaná data (příklad 4), tak pozorování z velkých farem by byla vážena více než pozorování z malých farem. Pokud není σ i znám, případně závisí na neznámých parametrech v odhadové funkci pro β získané pomocí MZNČ. Je možné nahradit σ i jejich odhady $σ i, pak se ovšem jedná o odhad odhadové funkce. O metodách odhadu σi se zmíním v dalších částech své diplomové práce. Poznámka Pokud by se použila MNČ v případě, že Ω σ I n odhadová funkce b by nebyla vydatná a odhadová funkce jejího rozptylu by byla dokonce vychýlená. Všechny odhady vychýlení rozptylu budou záviset pouze na matici X a na formě heteroskedasticity, takže je nutné přihlížet - 3 -

32 k jednotlivým příkladům. Například pokud by se uvažoval model y i = βx i + ε i, E(ε i ) = σ i, rozdíl ve vydatnosti je dán x σ i i i i / i C(b) - C( $ β ) = ( x ) ( x σ ). (4.9) Pokud je σ i = σ tento rozdíl je roven 0, pokud σ i = σ x i pak rozdíl je (σ i /( x i ) )( x 4 i - ( x i ) /n), což indikuje ostatně jak by se dalo očekávat, že čím větší je rozptyl x i, tím větší je ztráta vydatnosti. Vychýlení odhadové funkce rozptylu b v modelu y i = βx i + ε i, E(ε i ) = σ i je tedy dáno E[ $σ (X X) - ] - C(b) = n ( n )( x ) i x σ i i x i n σ i. (4.0) Odtud je vidět, že vychýlení závisí na stupni korelace mezi x i a σ i. Pokud je tato korelace kladná, což je nejčastější případ, výběrový rozptyl b bude podhodnocen. Pokud není korelace, tak ani odhad nebude vychýlen. Volba vhodných metod odhadů rozptylu závisí také na dalších předpokladech o σ i. O jednotlivých předpokladech a vhodných technikách, které se dají použít pro každý předpoklad, pojednává kapitola 5 a v kapitole 6 se zmíním o možném testování heteroskedasticity

33 5 Odhady parametrů lineárního modelu V této kapitole se pokusím přiblížit některé typy heteroskedastických struktur a s nimi související odvozovací procedury, které se nejčastěji objevují v literatuře. Pokud je dána určitá forma σ i, nabízejí se například otázky: Jak odhadnout neznámé parametry na nichž σ i závisí? Jak testovat existenci nějaké konkrétní formy heteroskedasticity a jaké provést závěry o β? Širší otázky vznikají s obecným testováním heteroskedasticity (bez znalosti konkrétní formy) například: Jakou povahu má σ i pokud se heteroskedasticita v modelu prokáže a jaké je možné činit závěry o vlastnostech odhadových funkcí, které jsou důsledkem testů hypotéz v kapitole. Tab. y = Xβ + ε, E(ε) = 0, E(εε ) = Ω = diag (σ, σ,..., σ n ) 5.. Odhad σ i bez apriorních předpokladů 5..4 Rozptyly σ i jsou lineární funkcí vysvětlujících proměnných 5.. Rozptyly konstantní v rámci podskupiny pozorování 5..5 Rozptyly σ i jsou funkcí střední hodnoty E(y i ) 5..3 Směrodatné odchylky σ i jsou lineární funkcí vysvětlujících proměnných 5..6 Multiplikativní heteroskedasticita V tabulce jsou uvedeny hlavní heteroskedastické struktury, které budou popsány v následujících podkapitolách. Jako první popíši situaci, kdy matici W známe. A poté situaci, kdy nejsou kladena žádná dodatečná omezení na rozptyly (provádí se tedy odhad σ i bez jakýchkoliv apriorních předpokladů). V následujících podkapitolách budu uvažovat alternativní omezující předpoklady o σ i, které se vyskytují v literatuře. $σ n Pro každou formu je obvykle nejdůležitější jak se získá vektor odhadů ($ σ, $σ,..., ), který je poté možné použít v odhadové funkci n $ β = ( $ n σ x x ) $ σ i= i i i i i= x i yi. $ V anglické literatuře se β nazývá EGLS (estimated generalized least square) tedy odhad odhadové funkce MZNČ

34 5. Matice W, popř. Ω je známa V takovém případě se parametry modelu y = Xβ + ε určí MZNČ jako $β = (X W - X) - X W - y = (X Ω - X) - X Ω - y = ( σ xx ) σ xy n ( zz ) i= i i n i= z i n i= i i i qi = (Z Z) - Z q, (5..) kde x i je i-tý řádek matice X, y i je i-tá hodnota vektoru y, z i je i-tý řádek matice Z = TX, q i je i- tý řádek vektoru q = Ty a T je diagonální matice n i= i i i = T = diag (σ -, σ -,..., σ n - ), takže T T = Ω -. V tomto případě je MZNČ vlastně MNČ uplatněná na transformovaný model y i /σ i = x i β /σ i + ε i /σ i. (5..) Odhad $ β se získá, kterýmkoliv ze vzorců (5..), nebo uplatněním MNČ na transformovaná data, kdy i-té pozorování y i, x ij, i =,,..., n, j =,,..., k, se dělí i-tou směrodatnou odchylkou σ i. Jde vlastně o použití vážené MNČ, kdy se minimalizuje Q e = n i= ε i σ i. Opět bych chtěl zdůraznit, že nesprávné použití MNČ místo MZNČ vede k méně vydatným odhadům pro β a ke zkresleným odhadům směrodatných chyb odhadů. V praxi to znamená, že odhady vypadají většinou lepší než ve skutečnosti jsou. Jestliže totiž existuje přímá závislost mezi σ i a x i, výběrové rozptyly b budou podhodnocené. Pokud však závislost neexistuje, tak k vychýlení odhadů rozptylů nedojde

35 Poznámka Známé rozptyly V minulém případě se předpokládala znalost matice W či Ω. Ve většině modelů s heteroskedasticitou jsou měnící se rozptyly neznámé. Někdy je ovšem odůvodněné předpokládat, že rozptyl každé náhodné složky je kromě proporcionální konstanty známou funkcí vysvětlující proměnné. Například pokud by se uvažoval model y i = β + β x i + β 3 x i + ε i, a dále se předpokládalo, že rozptyl ε i bude pravděpodobně v přímém vztahu s x i. Např. se může uvažovat σ i = σ x i potom vzniká situace ve které jsou kromě konstanty σ rozptyly známé. A je tedy možné psát Ω = σ W = σ x x x n a pak je tedy možné použít odhad b = (X W - X) - X W - y pomocí MZNČ, resp. aplikovat MNČ na transformovaný model y i /x i = β /x i + β + β 3 x i + ε i /x i. Touto procedurou se rovněž získají uspokojivé odhady. Na druhou stranu vzniká otázka proč právě předpokládat σ i = σ x i, proč ne třeba σ i = σ x i ; σ i = σ / x i apod.. 5. Rozptyly σ i nejsou známy V tomto případě se v (5..) nahradí rozptyly σ i jejich výběrovými odhady, $σ i popř. matici Ω jejím výběrovým odhadem $Ω. S tím však vzniká nový problém nejen způsobu odhadu, ale především posouzení důsledků nahrazení σ i výběrovými odhady na vlastnosti odhadu vektoru parametrů β. Simulační studie naznačují, že kvalita odhadu β podle (5..) při nahrazení Ω odhadem $ Ω značně závisí na postižení skutečné struktury heteroskedasticity. Nabízí se několik možností: 5.. Odhad σ i bez apriorních předpokladů Předpokládá se model y = Xβ + ε, E(ε) = 0, E(εε ) = Ω = diag (σ, σ,..., σ n ), Pokud by se vzaly odhady MNČ b = (X X) - X y a jim odpovídající rezidua e = y - Xb a označí-li se &e jako vektor druhých mocnin reziduí e i a &σ jako vektor rozptylů σ i. Pokud nejsou k dispozici žádná další omezení, je k dispozici vždy jedno pozorování k odhadu jednoho roz

36 ptylu a celkově n pozorování k odhadu n + k parametrů. Příliš velký optimismus o hodnotě odhadů tedy není na místě. Autoři Rao a Kleffe navrhli tzv. MINQUE (nevychýlený kvadratický odhad s minimální normou) neznámých rozptylů &σ. Poznámka MINQUE odhady Kvadratická forma y Ay je MINQUE lineární funkce n c i σ i i=, jestliže Eukleidovská norma matice A, tj. (st(aa)) /, je minimální za podmínky AX = 0 a a σ cσ. (podrobně se ii i i= i= problematikou zabýval např. Rao, Estimation of Heteroskedastic Variances in Linear Models). Je doporučen odhad &σ, který je MNČ odhadem z rovnice n n i i e& = M&& σ + η, kde M & je matice druhých mocnin prvků idempotentní matice M = In - X(X X) - X hodnosti (n - k). Uplatněním MNČ na tuto rovnici je možné získat &$ σ = ( MM &&) Me & & = M& e&. (5..3) Odhad (5..3) je definován, ačkoli matice M je singulární, protože matice M & je regulární. Jelikož hodnost matice M je n - k, je možné vyjádřit k reziduí jako lineární funkci zbývajících n - k reziduí a podobně k rozptylů σ i jako n - k nelineárních funkcí zbývajících σ i. To by znamenalo k nelineárních omezení prvků vektoru &σ. Pokud je třeba odhadovat n - k parametrů na základě n pozorování, je třeba taková omezení mít k dispozici nebo učinit nějaké apriorní předpoklady (třeba o závislosti mezi x i a σ i ). S užitím (5..3) jsou spojeny dva základní problémy pro odhad n $ β = ( $ n x x ) $ σ x y i. (5..4) i= σ i i i i= i i Odhad (5..3) není konzistentním odhadem &σ, takže ani s rostoucím počtem pozorování nedochází ke zvýšení pravděpodobnosti menších výběrových chyb a asymptotické vlastnosti $ β založené na &σ nemohou být odvozené od vlastností, které má odhad (5..). Druhou potí

Zobrazit více