Přednáška II. Lukáš Frýd

Podobné dokumenty
Lekce 2 Jednoduchý lineární regresní model

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Přednáška I. Lukáš Frýd

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

8. Analýza rozptylu.

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a aplikovaná statistika

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Odhady parametrů 1. Odhady parametrů

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

K čemu slouží regrese?

14. B o d o v é o d h a d y p a r a m e t r ů

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ.

Přednáška 4. Lukáš Frýd

PRAVDĚPODOBNOST A STATISTIKA

MATICOVÉ HRY MATICOVÝCH HER

Intervalové odhady parametrů

3. Lineární diferenciální rovnice úvod do teorie

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Závislost slovních znaků

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Pravděpodobnost a aplikovaná statistika

4. B o d o v é o d h a d y p a r a m e t r ů

Petr Šedivý Šedivá matematika

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

PRAVDĚPODOBNOST A STATISTIKA

Metody zkoumání závislosti numerických proměnných

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Náhodný výběr 1. Náhodný výběr

P2: Statistické zpracování dat

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Intervalové odhady parametrů některých rozdělení.

V. Normální rozdělení

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

NEPARAMETRICKÉ METODY

8. Odhady parametrů rozdělení pravděpodobnosti

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Úloha II.S... odhadnutelná

Generování dvojrozměrných rozdělení pomocí copulí

Lineární a adaptivní zpracování dat. 9. Modely časových řad II.

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

AVDAT Klasický lineární model, metoda nejmenších

5EN306 Aplikované kvantitativní metody I

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN

12. N á h o d n ý v ý b ě r

Testování statistických hypotéz

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Pravděpodobnost a aplikovaná statistika

8.2.1 Aritmetická posloupnost I

1.3. POLYNOMY. V této kapitole se dozvíte:

8.2.1 Aritmetická posloupnost

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

jsou reálná a m, n jsou čísla přirozená.

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Vzorový příklad na rozhodování BPH_ZMAN

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

2. Náhodná veličina. je konečná nebo spočetná množina;

Deskriptivní statistika 1

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

b c a P(A B) = c = 4% = 0,04 d

7. Odhady populačních průměrů a ostatních parametrů populace

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

PRAVDĚPODOBNOST A STATISTIKA

Iterační metody řešení soustav lineárních rovnic

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Náhodný výběr, statistiky a bodový odhad

Úloha III.S... limitní

Interval spolehlivosti pro podíl

4EK211 Základy ekonometrie

Přednáška 7: Soustavy lineárních rovnic

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

Popisná statistika. Zdeněk Janák 9. prosince 2007

Pravděpodobnostní model doby setrvání ministra školství ve funkci

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

17. Statistické hypotézy parametrické testy

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Teorie odhadů 2 Teorie odhadů... 3 Odhad parametrů... 4

n-rozměrné normální rozdělení pravděpodobnosti

0,063 0,937 0,063 0, P 0,048 0,078 0,95. = funkce CONFIDENCE.NORM(2α; p(1 p)

Sekvenční logické obvody(lso)

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Obsah. 1 Mocninné řady Definice a vlastnosti mocninných řad Rozvoj funkce do mocninné řady Aplikace mocninných řad...

9. Měření závislostí ve statistice Pevná a volná závislost

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ

1. Základy počtu pravděpodobnosti:

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Transkript:

Předáška II Lukáš Frýd

ҧ ҧ Statistické vlastosti odhadu pomocí metody ejmeších čtverců b 1 iid(μ, σ ) ε~iid(0, σ ) b 1 = β 1 + σ i=1 x i x. ε x i xҧ σ i=1 Var b 1 = Var β 1 + σ i=1 x i x. ε i x i xҧ σ i=1 E(b 1 ) = β 1 = ҧ 1 x i σ i=1 x. i=1 x i xҧ. Var(ε i ) = σ i=1 σ ε x i ҧ x Abychom dostali daé výsledky, musí být splěy ějaké podmíky

Proč je důležitý rozptyl? Var b 1 = σ ε x i ҧ σ i=1 x y σ ε - rozptyl áhodé složky ε σ i=1 x i xҧ - variace v x Rozptyl odhadu bude tím meší, čím: Meší bude rozptyl áhodé složky ε VĚTŠÍ bude variace v x Náhodá složka další faktory Čím větší mají variabilitu Tím těžší je určit b 1 Variabilita v (x) zvětšit výběrový vzorek (suma) Nulová variabilita elze provést odhad OLS x

Rozptyl áhodé složky a áhodá složka vs. residuum Var b 1 = σ i=1 σ ε x i ҧ x Problém je, že ε epozorovatelé Nezáme tak ai rozptyl σ ε Nuté odhadout Zkresleý odhad σ ε = 1 i=1 e i? σ ε = E ε E ε σ ε = E ε σ ε = 1 i=1 ε i E( σ ε ) = σ ε Nezkresleý odhad y = β 0 + β 1 x + ε σ ε = 1 e i i=1 Var b 1 = σ ε σ i=1 x i xҧ Stadard error of regressio Směrodatá chyba sd b 1 = σ ε σ i=1 x i xҧ σ ε = 1 i=1 e i

ҧ Předpoklady klasického lieárího modelu a Gauss-Markovovům teorém Metoda odhadu OLS vede k ezkresleému odhadu za určitých předpokladů E(b 1 ) = β 1 b 1 = β 1 + σ i=1 x i x. ε x i xҧ σ i=1 b 1 = β 1? NE! Rovice pro jedoduchou (přímkovou) regresi Rozptyl odhadu parametrů můžeme spočítat za určitých předpokladů Var b 1 = σ i=1 σ ε x i ҧ x Požadavky a odhad Nezkresleý (estraý, evychýleý) Kozistetí Vydatý Pokud budou splěy určité předpoklady Metoda ejmeších čtverců ám poskyte požadovaé vlastosti odhadu

ҧ Předpoklady 1) Liearita v parametrech (koeficietech) ) Náhodá chyba má středí hodotu rovou ule eí restriktiví pokud zahreme úrovňovou kostatu b 1 = σ i=1 x i x. (y i തy) x i xҧ σ i=1 3) Všechy vysvětlující proměé (x) jsou ekorelovaé s áhodou chybou 4) Žádá vysvětlující proměá eí lieárí kombiací jiých VP 1) Předpoklad áhodého výběru 5) Náhodá chyba má kostatí rozptyl homoskedasticita 6) Náhodé chyby jsou ekorelovaá mezi sebou- eí autokorelace 7) Náhodá chyba má ormálí rozděleí KLM Již eí v rámci GM! Po splěí získáme pomocí metody OLS odhady s těmito vlastostmi: Nezkresleé (estraý, evychýleý) Kozistetí Vydaté + budeme moci dělat testy hypotéz b OLS BLUE

1) Náhodá chyba má středí hodotu rovou ule eí restriktiví pokud zahreme úrovňovou kostatu ) Všechy vysvětlující proměé (x) jsou ekorelovaé s áhodou chybou Záleží jestli uvažujeme, že X je áhodá, ebo eáhodá matice (vektor) E ε X = E(ε) E X [E ε X ] = E(ε)

Přepoklady KLM a Gauss Markov teorém KLM Klasický lieárí model Blue odhad - GM Nezkresleý odhad 1) Lieárí v parametrech ) E ε = 0 3) E( ȁ ε X)= 0 4) Neí dokoalá multikoliearita 5) Var( ȁ ε X) = σ I 6) ε~n(0, σ I)

1) Lieárí v parametrech Cobb-Douglas produkčí fukce Neí lieárí v parametrech f(..) elieárí fukce y = f(β 0 ) + f(β 1 )x + ε y = Y = A. K β 1. L β A = e β 0+ε 1 β 0 + β 1 x + ε V parametrech je lieárí ly = β 0 +β 1 lk + β ll + ε y = β 0 + β 1 f(x) + ε y = β 0 +β 1 x 1 + β x + ε ly = y lk = x 1 ll = x Liearita v parametrech ám dovoluje přepsat model do maticové podoby Liearita v proměých eí utá Neplést!!! Více v kapitole elieárí formy

) Nulová středí hodota áhodé složky Podmíka představuje, že E ε = 0 Náhodá chyba má ějaké rozděleí Nejedá se o mix idetické rozděleí Pro ás je výhodé, aby její výkyvy byly v průměru rovy ule Graficky v průměru se acházíme a přímce y = β 0 + β 1 x + ε y = b 0 + b 1 x + e Zajímá ás jak se měí (y), když se měí (x) Jelikož existují další, třeba i epozorovaé proměé Zjišťujeme jak se v průměru x působí a y ε E ȁ y x = β 0 + β 1 x Středí hodota áhodé chyby je ula Nedochází k adhodocováí ai podhodocováí Nejsme ale schopi zjistit y pro kokrétí pozorováí Pokud je v modelu zahruta úrovňová kostata Podmíka je pak splěa více zobecěý KLM x

3) Podmíěá středí hodota áhodé chyby E( εȁx)= 0 E( εȁx 1, x,, x k )= 0 Všechy ezávislé proměé a jejich fukce jsou ekorelovaé s áhodou složkou Zalost ezávislých proměých ám epomůže určit (predikovat) áhodou složku Někdy se píše kovariace/korelace slabší předpoklad pro kozistetí odhad wage = β 0 + β 1. edu + β exper + ε Náhodá chyba obsahuje faktory, které ovlivňují y (charisma,iq) Některé mohou být korelováy s vysvětlujícími proměými v modelu ε mimo jié i IQ E( IQȁeduc, exper)= 0 Proč to vadí? Pokud eplatí ) eplatí ai 3) 1) y = β 0 + β 1. x + β x + ε ) E εȁx = 0 3) E yȁx = β 0 + β 1. x + β x Nesplěí předpokladů Obecě vede ke zkresleému a ekozistetímu odhadu

Exogeita E ȁ ε x = 0 x y ε Edogeita E εȁx 0 x y ε

εȁx E ȁ ε x = 0 E ȁ ε x 0 yȁx E yȁx = β 0 + β 1. x 0 5 10 x 5 10 x

4) Lieárí ezávislost ezávislých proměých Žádou vysvětlující (ezávislou) proměou emůžeme apsat jako lieárí kombiaci jiých proměých Mluvíme o perfektí koliearitě spotřeba = β 0 + β 1. mzda + β. kap. vyos + β 3. příjem + ε příjem = mzda + kap. vyos y = β 0 + β 1. x 1 + β. x + β 3. x 3 + ε x 3 = x 1 + x 1 1 1 3 4. 1 3 1 4 1 = 3 6 9 6 1 18 9 18 9 X3 získáme jako lieárí kombiaci X1 a X b = X X 1 X y 3 6 9 6 1 18 9 18 9 1 = elze, sigulari matice ematematické vysvětleí Co měří parametry regresí fukce? Jak se změí závisle proměá, když se 1 ezávisle proměá změí o 1 A OSTATNÍ PROMĚNNÉ ZŮSTOVANOU FIXNÍ Může zůstat příjem fixí, když chci zjistit pouze vliv mzdy a spotřebu?

Multikoliearita Někdy je koliearita Nezávislé proměé jsou těsě lieárě spojeé Vysoký stupeň korelace Koliearita pro proměé Multikoliearita pro více jak proměé Pro jedoduchost budeme říkat multikoliearita příjem = mzda + kap. vyos x 3 = x 1 + x y = β 0 + β 1. x 1 + β. x + ε Corr(x 1, x ) "vysoká" Třeba rozlišovat perfektí multikoliearitu (koliearitu) a multikoliearitu (koliearitu) Perfektí multikoliearita je porušeí GM, multikoliearita NENÍ! Nelze jasě defiovat kdy astává multikoliearita Příčiy: Časové řady a společý tred Zpožděé proměé Umělé dummy proměé špatá úprava vede k perfektí koliearitě x 1 x

y y y x 1 x x1 x x 1 x eí multikoliearita slabá multikoliearita silá multikoliearita y Cílem je popsat jak jedotlivé NP ovlivňují závisle proměou když ostatí NP jsou fixí x 1 x Pokud existuje silá závislost mezi NP emůžeme izolovat jedotlivé efekty Vidíme pouze společé působeí velmi silá multikoliearita

Pozor R j eí R z výstupu programu!! Čím větší bude R j - tím větší bude rozptyl odhadu Multikoliearita problém Ale ezapomíat a malý výběrový vzorek!! Taky problém σ Var b j = σ x j ഥx j (1 Rj ) R j R z regrese x j a všechy ostatí X + itercept y = β 0 + β 1. x 1 + β. x + ε x 1 = γ 0 + γ. x + v R 1 Iterpretace R - kolik variability v x 1 Se ám podařilo vysvětlit pomocí x Čím více tím větší je vzájemý vztah Var b j R j 1 Var b j x 1 Problém u testováí hypotéz x R j 1

σ Var b j = σ x j ഥx j (1 Rj ) větší σ představuje ztížeí odhadu parciálího efektu Nezávisle proměých (X) Proto vyšší rozptyl odhadu parametrů S rostoucím počtem pozorováí Se blíží rozptyl odhadu k ule Proč? Rozptyl se stává méě důležitým Rozptyl závisí a velikosti výběrového vzorku R j R z regrese x j a všechy ostatí X + itercept pokud existuje vztah mezi ezávislými proměými Projeví se to v rozptylu parametrů egativě Více v části multikoliearita y = β 0 + β 1. x 1 + β. x + ε x 1 = γ 0 + γ. x + v R 1 Var b j R j 1 Var b j Malý vzorek způsobí stejý problém jako multikoliearita! R j = 1 perfektí multikoliearita R j 1

spotřeba = β 0 + β 1. mzda + β. kap. vyos + β 3. urok. mira + ε Co máme udělat? Vypustit ěkterou proměou? Pokud je populačí model správě Vypuštěí relevatí proměé povede ke zkresleým odhadům E ε X 0 R kap.vyos = 0,94 R mzda = 0,3 Co když ás zajímá hlavě β 1 Rozptyl b,3 bude vysoký, ale Var(b 1 ) emusí Často ás ezajímá ceteris paribus všech ezávislých proměých Ale pouze ěkterých Ostatí proměé musejí být zahruty v modelu z důvodu omitted variable biased specifikačí chyby

ҧ Teorém ezkresleosti pro OLS odhady Pokud model splňuje ásledující předpoklady 1) Liearita v parametrech (koeficietech) ) Náhodá chyba má podmíěou středí hodotu rovou ule b 1 = β 1 + σ i=1 x i x. ε x i xҧ E(b 1 ) = β 1 σ i=1 3) Žádá vysvětlující proměá eí lieárí kombiací jiých VP Potom získáme pomocí metody OLS Nezkresleé odhady β 0,1 - což je b 0,1 Kdybychom udělali k-áhodých výběrů a zároveň by byly splěy podmíky 1-4 Potom by se měla středí hodota rovat parametru skutečého vztahu Pokud bude porušea alespoň 1 z podmíek Nemusí být odhad ezkresleý Nezkresleost je vlastost metody odhadu (OLS) E(b 1 ) = β 1

E b 1 ȁx i = β 1 + σ i=1 x i xҧ x i xҧ E ε i ȁx i E(b 1 ) = β 1 + σ i=1 σ i=1 x i xҧ x i xҧ. E(ε i ) σ i=1 1) Lieárí v parametrech ) E ε = 0 3) E( ȁ ε X)= 0 4) Neí multikoliearita E(b 1 ) = β 1 Kdybychom udělali k-áhodých výběrů Středí hodota se ebude rovat parametru skutečého vztahu 3) E( ȁ ε X) 0 E(b 1 ) β 1 E(b 1 ) β 1

Středí hodota E b = β Chceme aby středí hodota odhadu byla rova skutečé hodotě parametru Nebo-li, aby byl odhad NEZKRESLENÝ E b 0 b 1 b k = β 0 β 1 β k b~rozdel(μ, σ I) b~iid(μ, σ I) Idepedet ad idetically distributed Zda-li bude odhad ezkresleý, bude záviset a splěí předpokladů pro OLS odhad Pokud budou splěy daé předpoklady víme, že metoda OLS vede k ezkresleému odhadu ezámých parametrů β b = X X 1 X y = X X 1 X Xβ + ε = β + X X 1 X ε E b = β + E[ X X 1 X ε] E[ X X 1 X ε] E b = β E b = β E b

E b X = E β + X X 1 X ε X E b X = β + E X X 1 X ε X E b X = β + X X 1 X E ε X E b X = β law of iterated expectatios E X E b X = E b = β E b = β

5) Kostatí rozptyl áhodé chyby Již víme: Za jakých podmíek získáme ezkresleý odhad parametrů β Dále, že E ε = 0 Var b 1 = σ ε x i ҧ σ i=1 x Ale co rozptyl jak odhadu parametrů, tak áhodé složky? Další GM předpoklad pro model: Rozptyl áhodé složky je kostatí - eměí se se změou (x) E b 1 shodé rozdílé Var(b 1 ) Var(b OLS ) Var( εȁx) = σ Var( εȁvzděláí) = σ mzda = β 0 + β 1. vzděláí + ε Var(b NON OLS ) Var εȁx = E ε ȁx E εȁx = E ε ȁx = E ε = σ Podmíěý rozptyl áhodé složky = rozptylu áhodé složky

Lidé s vyšším vzděláím mohou pracovat jako VŠ učitelé Úředíci Maažeři mzda = β 0 + β 1. vzděláí + ε e S vyšším vzděláím je spojeo více možostí A větší rozptyl mezd Var( εȁvzděláí) σ vzděláí w vzděláí

Var( εȁx) = σ Var( εȁvzděláí) = σ Var b 1 = σ i=1 σ ε x i ҧ x Každé pozorováí je spojeo s ějakou áhodou chybou Pokud se rozptyl áhodé chyby eměí Mluvíme pak o homoskedasticitě Pokud se měí rozptyl áhodé složky, se změou (x) Mluvíme o heteroskedasticitě Var( ε i ȁx i ) = σ i Neplatí při heteroskedasticitě! Heteroskedasticita a dopad a OLS odhad Odhad OLS je stále ezkresleý! Odhad rozptylu je zavádějící Odhad eí vydatý Dopad a t,f, LM test Var b 1 = σ i=1 σ ε x i ҧ x Var b 0 = σ ε σ i=1 σ i=1 x i ҧ x i x

Rozptyl se může i sižovat!!!

Co způsobuje rozptyl proměé (y)? Je to áhodá složka ε Zatím budeme předpokládat, že podmíěý rozptyl je kostatí Var εȁx = σ Var( εȁedu) = σ Teto předpoklad se ozačuje jako homoskedasticita Rozptyl ε, se eměí se změami x Rozptyl y, se eměí se změami x wage wage Platí Var εȁx = Var yȁx = σ E( εȁx)= 0 eplést!!! E Var ȁ y x ȁ y x regresí fukce = skedastická edu edu

Jak se měí rozptyl y, když se měí (roste) x? f( yȁx) y E( yȁx) = β 0 + β 1. x x 1 x x

Jak se měí rozptyl y, když se měí (roste) x? f( yȁx) y E( yȁx) = β 0 + β 1. x x 1 x x 3 x

Var ȁ ε X = σ I Var εȁx = σ Var b X = X X 1 X Var ϵ X X X X 1 Var εȁx 1, x,, x = σ Var b = X X 1 X σ I X X X 1 wage = β 0 + β 1. educ + β. exper + β 3. teure + ε Var εȁeduc, exper, teure = σ Var εȁx = E εε ȁx = E ε 1 ε. ε 1 ε ε 3 X = E ε 3 ε 1 ε 1 ε 1 ε ε 1 ε 3 ε ε 1 ε ε ε ε 3 ȁx = ε 3 ε 1 ε 3 ε ε 3 ε 3 = E(ε 1 ε 1 ȁx) E(ε 1 ε ȁx) E(ε 1 ε 3 ȁx) E(ε ε 1 ȁx) E(ε ε ȁx) E(ε ε 3 ȁx) E(ε 3 ε 1 ȁx) E(ε 3 ε ȁx) E(ε 3 ε 3 ȁx) = σ 0 0 0 σ 0 = σ 0 0 σ 1 0 0 0 1 0 0 0 1 = σ I

log wage = β 0 + β 1. educ + β. exper + β 3. teure + ε Var ε i ȁ educ i, exper i, teure i = σ i Pokud bude rozptyl áhodé složky reagovat a alespoň jedu ezávislou proměou Mluvíme o heteroskedasticitě Výskyt heteroskedasticity emá vliv a zkresleost/ezkresleost odhadu b 0,,k Ovliví však rozptyl odhadu přes odhad rozptylu áhodé složky Dopad a testováí hypotéz Var b X = X X 1 X Var ϵ X X X X 1 Var b = X X 1 X σ I X X X 1 Var b = σ X X 1 Var εȁx = E εε ȁx = E ε 1 ε 1 ε 1 ε ε 1 ε 3 ε ε 1 ε ε ε ε 3 ȁx = ε 3 ε 1 ε 3 ε ε 3 ε 3 = E(ε 1 ε 1 ȁx) E(ε 1 ε ȁx) E(ε 1 ε 3 ȁx) E(ε ε 1 ȁx) E(ε ε ȁx) E(ε ε 3 ȁx) E(ε 3 ε 1 ȁx) E(ε 3 ε ȁx) E(ε 3 ε 3 ȁx) = σ 0 0 0 σ 0 = σ I 0 0 σ t = b j s(b j ) Tzv. t-poměr

Var εȁx = E εε ȁx = E ε 1 ε. ε 1 ε ε 3 X = E ε 3 ε 1 ε 1 ε 1 ε ε 1 ε 3 ε ε 1 ε ε ε ε 3 ȁx = ε 3 ε 1 ε 3 ε ε 3 ε 3 = E(ε 1 ε 1 ȁx) E(ε 1 ε ȁx) E(ε 1 ε 3 ȁx) E(ε ε 1 ȁx) E(ε ε ȁx) E(ε ε 3 ȁx) E(ε 3 ε 1 ȁx) E(ε 3 ε ȁx) E(ε 3 ε 3 ȁx) = = Var(ε 1 ) Cov(ε 1, ε ) Cov(ε 1, ε 3 ) Cov(ε, ε 1 ) Var(ε ) Cov(ε, ε 3 ) Cov(ε 3, ε 1 ) Cov(ε 3, ε ) Var(ε 3 ) σ 0 0 0 σ 0 = σ I 0 0 σ = σ Cov(ε 1, ε ) Cov(ε 1, ε 3 ) Cov(ε, ε 1 ) σ Cov(ε, ε 3 ) Cov(ε 3, ε 1 ) Cov(ε 3, ε ) σ Co jsou prvky mimo diagoálu? Cov x, y = x E x. (y E(y)) Cov ε, ε 1 = ε E(ε ). (ε 1 E(ε 1 )) Cov ε, ε 1 = ε. ε 1 = 0

6) Náhodé chyby jsou ekorelovaá mezi sebou Rovou přejdeme a případ esplěí podmíky autokorelace Problém v časových řadách Náhodá chyba v čase (t), ovliví áhodou chybu v čase (t+1) Cea akcie des ejspíše ovliví ceu akcie zítra, HDP v 000 má vliv a HDP v 001 Chováí souseda ovliví další sousedy Dopad a OLS odhad: Obdobé jako heteroskedasticita Odhad parametrů stále ezkresleý Odhady ejsou vydaté Problém s testováím hypotéz E ε i, ε j = 0 y Neplatí při autokorelaci Var b 1 = Var b 0 = σ i=1 y = β 0 + β 1 t + ε σ ε x i ҧ x σ ε σ i=1 σ i=1 x i ҧ x i x t

Doposud jsme prošli 5 předpokladů Gauss-Markovovův teorém 1) Lieárí v parametrech ) E ε = 0 3) E( ȁ ε X)= 0 4) Neí multikoliearita Var b j = σ σ x j ഥx j (1 Rj ) 5) Var( ȁ ε X) = σ I Při splěí těchto 5 předpokladů Získáme pomocí metody OLS tzv. BLUE odhad Best Liear Ubiased Estimator σ = 1 k 1 σe ezkresleý odhad Pokud platí GM teorém 1-5 E( σ ) = σ NIC NEŘÍKÁME O TYPU ROZDĚLENÍ NÁHODNÉ SLOŽKY!!!!

Gauss Markov teorém Blue odhad Nezkresleý odhad 1) Lieárí v parametrech ) E ε = 0 3) E( ȁ ε X)= 0 4) Neí dokoalá multikoliearita 5) Var( ȁ ε X) = σ I Existuje více odhadů, které splňují 1,,3,4 Hledáme te ejlepší s ejmeším rozptylem Best liear ubiesed estimators -BLUE Proč GM? Po splěí předpokladů GM emusíme hledat/použít jiých metod pro odhad Neajdeme lepší maximálě stejě dobré

7) Normálí rozděleí áhodé složky Náhodá složka může mít libovolé rozděleí Často se přímo pracuje s ormálím, ale emusí Když záme (předpokládáme) rozděleí áhodé složky Můžeme určit rozděleí parametrů ε~n(0, σ ) ȁ b 1 x = N β 1, σ x i xҧ yȁx = N β 0 + β 1 x, σ Díky tomu můžeme : Zjistit itervaly spolehlivosti Provádět testy hypotéz b~n(β, σ X X 1 ) Požadavek ormality pro rozsáhlé soubory eí podmíkou CLV Co testováí hypotéz? yȁx = N Xβ, σ X X 1

Úvod a o čem to bude Víme za jakým podmíek bude odhad parametrů Nezkresleý Kozistetí Vydatý Víme, že ezáme populačí regresí fukci Musíme ajít ástroje, jak určit relevatost proměých Které ezávislé proměé (X) působí (sigifikatě) a závisle proměou (y) 1) Lieárí v parametrech ) E ε = 0 3) E( ȁ ε X)= 0 4) Neí dokoalá multikoliearita 5) Var( ȁ ε X) = σ I 6) ε~n(0, σ I) Gauss Markov teorém Splěí předpokladů 1-5 BLUE odhad Splěí předpokladů 1-6 MVUE (miimum variace ubiased estimator) BLUE řeší pouze lieárí MVUE i elieárí

ҧ Náhodý výběr vzorku Téma spíše avíc Výběrová regresí fukce Co se stae pokud budete odhadovat a vzorku ze sídliště Cháov? Např. Volebí průzkumy průřez průřezová data (cross???) y = b 0 + b 1 x + e wage i = b 0 + b 1 edu i + e i Určitý rozptyl ve vysvětlující proměé (x) Z odhadu parametru již záme : b 1 = σ i=1 x i x. (y i തy) x i xҧ σ i=1