EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Podobné dokumenty
4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

5EN306 Aplikované kvantitativní metody I

odpovídá jedna a jen jedna hodnota jiných

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

Regresní a korelační analýza

Statistika II. Jiří Neubauer

Ekonometrie. Jiří Neubauer

Korelační a regresní analýza

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Regresní analýza 1. Regresní analýza

Ilustrační příklad odhadu LRM v SW Gretl

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

LINEÁRNÍ REGRESE. Lineární regresní model

AVDAT Klasický lineární model, metoda nejmenších

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistická analýza jednorozměrných dat

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Lineární regrese. Komentované řešení pomocí MS Excel

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Časové řady, typy trendových funkcí a odhady trendů

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Časové řady, typy trendových funkcí a odhady trendů

Statistická analýza jednorozměrných dat

AVDAT Geometrie metody nejmenších čtverců

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Regresní analýza. Eva Jarošová

Bodové a intervalové odhady parametrů v regresním modelu

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Úvodem Dříve les než stromy 3 Operace s maticemi

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

PRAVDĚPODOBNOST A STATISTIKA

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Regresní a korelační analýza

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

INDUKTIVNÍ STATISTIKA

Inovace bakalářského studijního oboru Aplikovaná chemie

Kontingenční tabulky, korelační koeficienty

6. Lineární regresní modely

7. Analýza rozptylu.

6. Lineární regresní modely

Úvod do analýzy rozptylu

KGG/STG Statistika pro geografy

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Základy maticového počtu Matice, determinant, definitnost

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

4EK211 Základy ekonometrie

12. cvičení z PST. 20. prosince 2017

Semestrální práce. 2. semestr

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

6. Lineární regresní modely

Heteroskedasticita. Vysoká škola ekonomická Praha. Fakulta informatiky a statistiky. Katedra statistiky a pravděpodobnosti

Statistická analýza jednorozměrných dat

Aplikovaná numerická matematika - ANM

Regresní a korelační analýza

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Kalibrace a limity její přesnosti

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Tomáš Karel LS 2012/2013

Odhad parametrů N(µ, σ 2 )

= = 2368

AVDAT Nelineární regresní model

KORELACE. Komentované řešení pomocí programu Statistica

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

VEKTOROVÉ AUTOREGRESE. APLIKACE V PROGNÓZOVÁNÍ.

11 Analýza hlavních komponet

Transkript:

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model Požadavky (některé) pro odhad LRM klasickou MNČ nejsou zpravidla splněny. Použití metody nejmenších čtverců nemusí poskytovat kvalitní odhady parametrů. Může pomoci metoda zobecněných nejmenších čtverců. Zaměříme se zejména na problémy heteroskedasticity, autokorelace a multikolinearity. Modifikace postupu za účelem zachování kvality odhadů. První krok: VERIFIKACE ODHADNUTÉHO EKONOMICKÉHO MODELU cíl: zjistit vhodnými testovacími technikami, který z klasických požadavků a jak moc není splněn. zjistíme-li, že některé požadavky nejsou dodrženy, musíme provést korekci (často je jí změna specifikace modelu, úprava či transformace dat, modifikace zvolené metody ) V této kapitole: testování a způsob korekce pro případ nesplnění předpokladů týkajících se náhodných složek a matice pozorování vysvětlujících proměnných. Vždy budeme předpokládat pro názornost nedodržení jen jednoho předpokladu. Nedodržení předpokladů o náhodných složkách MNČ: Y = Xβ + u Jestliže jsou porušeny některé podmínky klasického modelu. E(u) = 0 střední hodnoty náhodných složek v každém výběru jsou nulové. E(uu T ) = In rozptyl náhodných složek je ve všech pozorování konstantní a konečný i náhodné složky jsou sériově nezávislé. 3. E(X T u) = 0, 4. h(x ) = k+ n, mluvíme o zobecněném modelu. Zobecněný lineární regresní model Podmínka nulovost střední hodnoty náhodných složek a) Konstantní střední hodnota Předpokládejme, že je porušena podmínka () o nulové střední hodnotě náhodné složky. Jestliže platí pro všechna pozorování E(ui) =, potom můžeme zahrnout nenulovou střední hodnotu náhodné složky do úrovňové konstanty modelu E(Yi) = + Xi +... + k Xki + regresní funkce základního modelu neboli E(Yi) = * + Xi +... + k Xki +, * = + Nemá vliv na vlastnosti odhadu bj, j =,..., k. MNČ dostaneme tedy správné odhady b,, bk (nestanné a vydatné), ale odhad b * bude vychýleným odhadem parametru (přičemž vychýlení neznáme).

b) Nekonstantní střední hodnota Dochází-li ke změně střední hodnoty náhodných složek v různých pozorování, tj. E(u i ), ale E(u i ) = i na u i působí faktory nezahrnuté v modelu (nezahrnutí podstatných vysvětlujících proměnných do modelu) náhodná chyba specifikace modelu postup jako při chybné specifikaci modelu (POZOR: vynechané a dodatečně do modelu zahrnuté proměnné nesmí být závislé na vysvětlujících proměnných zahrnutých v původním modelu). Podmínka homoskedasticita a sériová nezávislost a) Homoskedasticita b) Sériová nezávislost Nedodržení podmínky () je vážnější negativní dopad na vlastnosti odhadovaných funkcí. Požadujeme, aby náhodné složky měly konstantní konečný rozptyl a byly sériově nezávislé. Pokud neplatí jedno z toho, mluvíme o heteroskedasticitě či autokorelaci. Tento problém řeší zobecněná metoda nejmenších čtverců (MZNČ), (GLS) Y = Xβ + u, E(u) = 0, E(uu T ) = V =, kde je neznámý skalár V je známá (předpoklad!) symetrická pozitivně definitní matice řádu n. V případě V = In klasický LRM MNČ. Odhad parametrů pro zobecněný LRM (ZLRM) metoda zobecněných nejmenších čtverců (MZNČ) (podle autora nazývaná také Aitkenovým odhadovým postupem). Jde o transformaci ZLRM, která zajistí splnění podmínky () E(uu T ) = In odhad klasickou MNČ. Metoda zobecněných nejmenších čtverců Transformace: Libovolnou symetrickou pozitivně definitní matici lze vyjádřit jako součin dvou vzájemně transponovaných regulárních matic (LU rozklad, Choleského rozkla, Choleského dekompozice, Cholesky decomposition). V je symetrická pozitivně definitní V - je symetrická pozitivně definitní. Nechť V - = P T P (V = (P T P) - = P - (P T ) - ) Po transformaci původního modelu Y = X + u. Dostáváme transformovaný model PY = PX + Pu, neboli Y * = X * + u *. Pro náhodné složky u * platí: P známá E(u u T ) = E((Pu)( Pu) T ) = E(Puu T P T ) = PE(uu T ) P T = P VP T

= PVP T = PP (P T ) P T I n I n = I n klasická podmínka MNČ b = (X T X ) X T Y = [(PX) T (PX)] (PX) T PY = [X T P T PX] X T P T PY = [X T V X] X T V Y. Toto je tzv. odhadová funkce MZNČ pro parametry β. Nejlepší lineární nestranná odhadová funkce za předpokladu známé (stále jen předpoklad) matice V Kovarianční matice V(b ) = [X T V X] důkaz analogicky jako pro b Nestranný odhad neznámého rozptylu : s = e T e, kde n k e je vektor reziduí spočtený na základě odhadu MNČ. u~n(0, V) u ~N(0, I) standardní testy statistické významnosti, včetně postupů pro stanovení intervalů spolehlivosti pro parametry β. Při řešení praktických úloh však většinou matici V neznáme (neplatí tedy zmíněný předpoklad) a nemůžeme stanovit transformační matici P. Matici V i matici P konstruujeme EX POST (tj. po odhadu). Tzn. nejprve odhad modelu Y = Xβ + u klasicky MNČ. Pak výpočet reziduí a konstrukce odhadu matice V, kde místo u použijeme e. Pak transformace tohoto modelu na Y = X β + u Způsob transformace je různý v případě heteroskedasticity a v případě autokorelace. a) Heteroskedasticita Podmínka klasického LRM () E(uu T ) = In Požadavek konečného a konstantního rozptylu náhodných složek (a tudíž i reziduí) modelu Y = Xβ + u = homoskedasticita. V opačném případě (nekonstantní rozptyly) = heteroskedasticita. Problém u průřezových dat velké změny v hodnotách vysvětlujících proměnných. Méně se vyskytuje u časových řad. Př. poptávkové funkce, úsporové funkce (s rostoucími příjmy roste variabilita jejich výdajů či úspor). Produkční funkce (měnící se rozptyl objemu produkce přímo úměrně s počtem firem či jejich velikostí). Příčiny: ) Chybná specifikace modelu vynechání podstatné vysvětlující proměnné X. ) Značně rozdílné hodnoty v jednom náhodném výběru u mikroekonomických dat průřezových rozptyl X je funkcí nějaké proměnné X rozptyl u je také funkcí X. 3) Kumulace chyb měření s rostoucí hodnotou vysvětlující proměnné X větší rozptyl X větší rozptyl u.

4) Při použití např. skupinových průměrů z tříděných údajů místo původních dat. Důsledky: Odhady MNČ ztrácejí optimální vlastnosti. heteroskedasticita E(uu T ) = V MNČ : odhady jsou nestranné a konzistentní, ztrácejí však vydatnost a asymptotickou vydatnost. Odhady rozptylů a standardních chyb regresních parametrů nelze získat z vzorců pro homoskedasticitu. běžné testy statistické významnosti, ani intervalový odhad nejsou použitelné. Při použití běžných odhadových funkcí pro standardní chyby odhadů bez ohledu na měnící se rozptyl náhodných složek vychýlené odhady standardních chyb intervalový odhad je podhodnocen či nadhodnocen a výsledky testů nereálné. Testy heteroskedasticity Mnoho postupů, žádný nemá univerzální charakter. Heteroskedasticita = vlastnost náhodných složek, které neznáme testy ze známých hodnot reziduí z klasické MNČ. Jelikož lim e = u rezidua e jsou pro velké výběry konzistentními odhady n neznámých náhodných složek u. Spearmanův test korelace pořadí Spearmenův test korelace pořadí asi nejjednodušší a nejčastěji používaný. Testuje lineární závislost směrodatné odchylky náhodných složek σ i na některé z vysvětlujících proměnných Xi. Aplikace na rezidua z MNČ. Uspořádají se vzestupně nebo sestupně absolutní hodnoty reziduí. Stejně (vzestupně či sestupně) se uspořádají pozorování vysvětlující proměnné. Pro každé pozorování i spočteme d i = pořadí (e i ) pořadí (X i ). Spearmenův koeficient korelace pořadí se vypočte podle koeficientu korelace pořadí: r ex = 6 d i n(n ) kde di je diference v pořadí dvojic absolutní hodnoty reziduí a pozorování vysvětlující proměnné (viz výše). Jestliže Spearmenův koeficient korelace pořadí vykazuje hodnoty blízké, potom nastává heteroskedasticita (perfektní závislost znamená nulové diference i jejich druhé mocniny, zlomek nulový a koeficient rex tedy roven jedné). Pro vícenásobnou regresi r ex mezi rezidui a pozorováními všech proměnných v matici X t-test. Testujeme, je-li v základním souboru r ex = 0 t-test : t = r ex n k r ex, n-k stupňů volnosti

H 0 : heteroskedasticita H A : homoskedasticita t > t r ex heteroskedasticita H 0 : nelze zamítnout (akceptujeme) t < t r ex 0 homoskedasticita H 0 : zamítáme Postup při heteroskedasticitě: Zjistíme-li heteroskedasticitu, nejprve je vhodné přezkoumat specifikaci (často je vynechána významná proměnná). Není-li chyba ve specifikaci transformace modelu transformované náhodné složky mají konečný konstantní rozptyl MNČ. Je-li i známá a cov(xi,xj ) = 0 (sériově nezkorelované) V = [ σ 0 0 0 σ 0 0 σ n ] σ 0 0 σ V 0 = 0 [ 0 σ n ] σ 0 0 0 P = σ 0 0 [ σ n ] P = [ σ 0 0 0 σ 0 0 σ n ] Známe-li všechna i transformace původního modelu maticí P obnáší vydělení všech pozorování jednotlivými směrodatnými odchylkami i. Pak odhad parametrů MNČ je shodný s odhadem MNČ aplikovanou na transformovaná data. Řešení pro zmírnění heteroskedasticity: Nahrazení všech měřitelných proměnných jejich logaritmy. LOGARITMICKÁ TRANSFORMACE Snižuje heteroskedasticitu rozptylu, neboť stlačuje stupnici. Diference mezi hodnotami se několikanásobně zmenší. Nesmí však být v rozporu s principy (např. záporné proměnné nelze logaritmovat). Nesmí být v rozporu s výchozí ekonomickou hypotézou.

b) Autokorelace Předpoklad LRM heteroskedasticita a nulové kovariance (tj. 0 mimo diagonálu kovarianční matice ). Pro normálně rozdělené náhodné složky s nulovou střední hodnotou plyne, že jsou-li po dvojicích nezávislé E(ut,us) = cov(ut,us) = 0, t s Často není splněno u časových řad. Porušení předpokladu o vzájemné nezávislosti náhodných složek z různých pozorování: E(ut,us) 0, t s (stačí, aby byl jeden prvek nenulový) Při korelaci náhodné složky v libovolném období s náhodnou složkou či složkami v předchozím autokorelace či sériová korelace E(ut,us) 0, t s Autokorelace = závislost mezi posloupností hodnot jedné proměnné uspořádaných v čase, někdy i v prostoru (prostorová autokorelace). Čím delší časové intervaly, tím méně autokorelace. Příčiny: ) Většina časových řad vykazuje setrvačnost pozorování v po sobě jdoucích obdobích nejsou nezávislá, jsou sériově zkorelovaná (HNP, důchod, cenové indexy, investice, nezaměstnanost). Autokorelace náhodných složek je typickým znakem vývoje veličin v čase. Zpravidla jde o pozitivní korelaci, která např. odráží cyklické změny trendu. Vynechání těchto (ne příliš podstatných) vysvětlujících proměnných specifikační chyba způsobí pozitivní autokorelaci náhodných složek kvaziautokorelace. ) Špatná či nepřesná specifikace (např. nahrazení nelineární funkce lineární) specifikační chyba se promítne do náhodné složky. 3) Zahrnutí chyb měření do náhodné složky. 4) Použití různým způsobem zpožděných vysvětlujících proměnných (X t, X t, a Y t ) náhodné složky jsou sériově zkorelované (závislé). 5) Data zprůměrovaná, vyrovnaná, extra či interpolovaná systematické ovlivnění náhodných složek vzájemná závislost v pozorováních. Důsledky (obdobné heteroskedasticitě): ) Odhady parametrů MNČ zůstávají nestranné a konzistentní, ale nemají minimální rozptyl (nejsou vydatné) ani asymptoticky vydatné. ) Odhadnuté rozptyly náhodných složek a standardní chyby (zpravidla podhodnocené při pozitivní autokorelaci) jsou vychýlené, špatně určené intervaly spolehlivosti, nelze použít běžné testy (výsledky klasických testů jsou nereálné). Autokorelace. řádu - Nejčastější předpoklad: ut jsou generovány stacionárním autoregresním stochastickým procesem prvního řádu. Náhodné složky jsou závislé podle následujícího vztahu:

ut = ut- + t, t =,,..., T AR() proces,kde < koeficient autokorelace. řádu t N(.,.) chyba, normálně rozdělená náhodná složka, vyhovuje podmínkám MNČ. Autokorelované složky = autoregresní náhodné složky Pro ut AR() E(ut,ut- ) = (předpokládáme konstantní a E(ut,us) = t-s konečný rozptyl) pokud E(u t, u s ) 0, t s kovariance Platí: <, protože jinak by náhodné složky měly explozivní charakter (nebyla by homoskedasticita a bylo by to nereálné) Jestliže: > 0 pozitivní autokorelace. řádu posloupnost několika kladných složek se střídá s posloupností několika záporných náhodných složek < 0 negativní autokorelace. řádu po sobě jdoucí složky pravidelně střídají znaménka = 0 sériová nezávislost = silná kladná (pozitivní) autokorelace = - silná záporná (negativní) autokorelace Testování autokorelace. řádu Test reziduí pomocí Durbinovy-Watsonovy statistiky d (DWd) po aplikaci MNČ d = n t= (e t e t ) n t=(e t ), d = ( ρ) Podíl součtu čtverců rozdílů sousedních reziduí a reziduálního (nevysvětleného) součtu čtverců, platí E(d) =. Rezidua mohou být kladná i záporná. Mohou nastat následující situace: Úplná pozitivní autokorelace sousední hodnoty reziduí mají stejná znaménka, jejich rozdíl je nulový, taktéž jejich čtverce, a tudíž d = 0 a =, Pozitivní autokorelace sousední hodnoty reziduí mají stejná znaménka, jejich rozdíl je malý, taktéž jejich čtverce ve srovnání se čtverci reziduí, a tudíž d 0 a ρ, obecně ρ 0. Platí, že 0 d d L Perfektní nezávislost sousední hodnoty reziduí střídají náhodně znaménka, při grafickém zobrazení nevidíme žádný vzor ani pravidla. Platí d = a ρ = 0. Nezávislost sousední hodnoty reziduí střídají náhodně znaménka, při grafickém zobrazení nevidíme žádný vzor ani pravidla. Platí d a ρ 0, a tudíž d U d 4 d U. Negativní autokorelace sousední hodnoty reziduí mají opačná znaménka, jejich rozdíl je velký (téměř dvojnásobný ve srovnání s hodnotami reziduí), taktéž

jejich čtverce (čtyřnásobné) ve srovnání se čtverci reziduí, a tudíž d 4 a ρ, obecně ρ 0. Platí, že 4 d L d 4. Úplná negativní autokorelace sousední hodnoty reziduí mají opačná znaménka, jejich rozdíl je dvojnásobný ve srovnání s hodnotami reziduí, jejich čtverce jsou pak čtyřnásobné ve srovnání se čtverci reziduí, a tudíž d = 4 a ρ =. Pro n-k stupňů volnosti lze určit horní (du) a dolní (dl) mez pro statistiku d. Obě hodnoty (dl i du) pro Durbinovu-Watsonovu statistiku najdeme v tabulkách. H0: sériová nezávislost ( = 0) HA: autokorelace. řádu (kladná) 0 d d L H0 zamítáme ve prospěch HA (KLADNÁ autokorelace) 4 d L d 4 H0: akceptujeme (ZÁPORNÁ autokorelace) d U d 4 d U H0: akceptujeme (NEZÁVISLOST, = 0) d L d d U } 4 d U d 4 d L výsledky jsou neprůkazné Vzhledem k symetrii lze analogicky testovat i zápornou autokorelaci. Pro oboustrannou alternativu : H0: = 0 HA: 0 Vyhodnocujeme na zdvojené hladině významnosti, H0: akceptujeme, pokud d U d 4 d U Postup při významné autokorelaci.řádu ) Nejprve otestujeme správnost specifikace modelu (vynechané proměnné), případně zkusíme změnit tvar (semilogaritmická či dvojlogaritmická transformace) a nová MNČ a test reziduí. ) Nejsou-li příčinou specifikační chyby test sériové závislosti. 3) Transformace pomocí matice P. PY = PXβ + Pu Y = X β + u u sériově nezávislé MNČ (ekvivalentní MZNČ) u AR() vzhledem k homoskedasticitě: ρ ρ n E(uu T ) = σ ρ ρ n [ ρ n ρ n ] Známe-li známe V MZNČ β nejlepší lineární nestranná odhadová funkce

Je-li V pozitivně definitní a symetrická P = ρ [ ρ 0 0 ρ 0 0 ρ ] Jestliže neznáme, můžeme odhadnout z D-W statistiky: r = d Vlastnosti odhadové funkce MZNČ platí pouze asymptoticky. Transformované hodnoty vypočteme podle následujících vztahů (konstantu lze vynechat): Y ρ Y = Y ρy [ Y n ρx n ] X j ρ X j = X j ρx j [ X jn ρx j,n ] j =,, k Na tyto hodnoty je potom možno použít metodu nejmenších čtverců. Uvedený postup se nazývá Praisova-Winstenova transformace. Jednotlivé prvky Y, X s výjimkou prvního řádku mají podobu tzv. ZOBECNĚNÝCH DIFERENCÍ. Pokud máme k dispozici dostatek pozorování, lze použít tzv. Cochranovu- Orcuttovu transformaci, kdy z matice P vynecháme první sloupec a zahodíme první pozorování celá transformace je pak identická s popsanou Praisovou-Winstenovou. Podmínka 3 matice X je nestochastická V jednorovnicových modelech nemá smysl porušení tohoto předpokladu řešit, zabývat se jím tedy budeme až u modelů simultánních rovnic. Podmínka 4 plná hodnost matice X Multikolinearita Požadavek MNČ na lineární nezávislost sloupců X. Žádný sloupec nelze vyjádřit jako lineární kombinaci ostatních. X T X má plnou hodnost (tj. h(x) = k), stejně jako X, a to k. Mohou nastat dva problémy:. Perfektní multikolinearita Porušením této podmínky (tj. h(x) < k) nastává perfektní kolinearita perfektní multikolinearita. X T X je singulární, determinant matice det(x T X) = 0 neexistuje inverzní matice a nelze tedy stanovit (X T X).

Nelze proto stanovit bodovou odhadovou funkci MNČ.. Silná multikolinearita: Často silná (ne však perfektní) kolinearita. - sloupce X značně závislé det(x T X) 0, ale (X T X), což signalizuje silnou závislost mezi pozorováními vysvětlujících proměnných. Multikolinearita: více než vztah lineární závislosti. Kolinearita:! lineární vztah mezi sloupci X. V praxi se ale v obou případech mluví o multikolinearitě. Opak = ortogonální vysvětlující proměnné (sloupce s nulovou kovariancí). Důvodem jsou data, která nejsou výsledkem řízeného experimentu. Podstatou je zjistit intenzitu mezi a více proměnnými, ne jen zjistit, jestli existuje. Příčiny: ) Tendence časových řad vyvíjet se stejným směrem (důchody, spotřeba, investice). ) Neexperimentální data u průřezové analýzy (počet pracovníků a fixní kapitál). 3) Vysvětlující proměnnou jsou zpožděné endo i exogenní proměnné. 4) Chybná specifikace: např. chybně určené 0 proměnné. 5) Větší počet vysvětlujících proměnných než je rozsah výběru (k > n). Důsledky: ) Snižuje se přesnost odhadů, jsou však nestranné i vydatné. ) Pro různé výběry dostáváme různé odhady. 3) Při opakovaných výběrech se parametry značně liší. 4) Citlivost odhadované funkce MNČ na velmi malé změny v matici X. 5) Velké standardní chyby způsobují pochybnosti o správnosti specifikace modelu Takovou proměnnou s velkou chybou (statisticky nevýznamná) vynecháme. 6) Je-li multikolinearita mezi vysvětlujícími proměnnými nejsme schopni odhadnout jejich parametry (pouze parametr jejích kombinace) a nejsme schopni odhadnout, co je důležitější. Zjišťování a měření významnosti multikolinearity (ne testování) Multikolinearita je jev (vlastnost) výběru, nikoliv souboru. zda existuje jaký je její stupeň jakou má formu Pro model s jednou vysvětlující proměnnou: Multikolinearita se ve výběru nemůže vyskytovat (proměnná nemá být s čím kolineární) Pro dvě vysvětlující proměnné: Metoda párových korelačních koficientů Vypočtou se párové korelační koeficienty.

Pokud některý koeficient korelace dosáhne absolutní hodnoty větší než 0,8 (resp. 0,9), potom považujeme multikolinearitu za neúnosnou. Selhává pro modely s více než vysvětlujícími proměnnými. Pro větší počet vysvětlujících proměnných: Metoda pomocných regresí Každou vysvětlující proměnnou Xj modelujeme za pomoci lineární regrese se zbývajícími proměnnými (jako vysvětlujícími) tj. X j = α + α X + + α j X j + α j+ X j+ + α k X k + u a určíme dílčí koeficienty vícenásobné determinance R j. Příznakem správného modelu bývá velké R pro model a nízké R j pro pomocné regrese. Provedeme F-test významnosti: F j = R j n (k ) R j (k ) = R j n k + R j k j: F j > F j H0: nezávislost ZAMÍTÁME a multikolinearitu považujeme za neúnosnou V praxi lze použít jednoduché empirické pravidlo: multikolinearita se stává neúnosnou, jestliže platí j: R J > R, kde R je koeficient determinace odhadovaného modelu tj. Y = β X + + β k X k + u Nevýhoda: nelze zjistit závislost, pokud jich je více než jedna. Postup při významné multikolinearitě Neexistuje postup pro úplné řešení problému. ) Zvětšit rozsah výběru (přidat odlišná pozorování, extrémní hodnoty) roční data na čtvrtletní problém sériové korelace zahrnutí experimentálních hodnot ) Využít omezení parametrů (apriorní omezení) vyplývající z ekonomické teorie. 3) Kombinace průřezových dat a časových řad = smíšený odhad kolinearita příjmů a cen zboží šetření domácností pružnost poptávky 4) Změna specifikace modelu vynechání kolineárních vysvětlujících proměnných se statisticky nevýznamnými parametry může však dojít k specifikační chybě (větší problém než multikolinearita). 5) Transformace pozorování první diference (zpravidla autokorelace) nebo podíl proměnných (zpravidla heteroskedasticita) 6) Formální statistické metody vícerozměrné analýzy (neposkytují nestranné odhady) - metoda hlavních komponent - hřebenová regrese - kvadratická ztrátová regrese