Lekce 2 Jednoduchý lineární regresní model

Podobné dokumenty
Přednáška I. Lukáš Frýd

Přednáška II. Lukáš Frýd

K čemu slouží regrese?

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Odhady parametrů 1. Odhady parametrů

Pravděpodobnost a aplikovaná statistika

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

8. Analýza rozptylu.

PRAVDĚPODOBNOST A STATISTIKA

14. B o d o v é o d h a d y p a r a m e t r ů

Náhodný výběr 1. Náhodný výběr

Petr Šedivý Šedivá matematika

4. B o d o v é o d h a d y p a r a m e t r ů

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

12. N á h o d n ý v ý b ě r

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Závislost slovních znaků

Deskriptivní statistika 1

Úloha II.S... odhadnutelná

Metody zkoumání závislosti numerických proměnných

9. Měření závislostí ve statistice Pevná a volná závislost

KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ.

Intervalové odhady parametrů některých rozdělení.

V. Normální rozdělení

3. Lineární diferenciální rovnice úvod do teorie

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Intervalové odhady parametrů

PRAVDĚPODOBNOST A STATISTIKA

Úloha III.S... limitní

MATICOVÉ HRY MATICOVÝCH HER

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Číselné charakteristiky náhodných veličin

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( )

IAJCE Přednáška č. 12

OVMT Přesnost měření a teorie chyb

NEPARAMETRICKÉ METODY

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

8. Odhady parametrů rozdělení pravděpodobnosti

Teorie odhadů 2 Teorie odhadů... 3 Odhad parametrů... 4

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

PRAVDĚPODOBNOST A STATISTIKA

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Základní požadavky a pravidla měření

P2: Statistické zpracování dat

8.2.1 Aritmetická posloupnost I

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Pravděpodobnost vs. statistika. Data. Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

8.2.1 Aritmetická posloupnost

Testování statistických hypotéz

Pravděpodobnostní modely

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Lineární a adaptivní zpracování dat. 9. Modely časových řad II.

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Lineární a adaptivní zpracování dat. 8. Modely časových řad I.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

1.7.4 Těžiště, rovnovážná poloha

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

Popisná statistika. Zdeněk Janák 9. prosince 2007

PŘÍKLAD NA PRŮMĚRNÝ INDEX ŘETĚZOVÝ NEBOLI GEOMETRICKÝ PRŮMĚR

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

Užití binomické věty

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

1.3. POLYNOMY. V této kapitole se dozvíte:

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Náhodný výběr, statistiky a bodový odhad

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

Sekvenční logické obvody(lso)

6. Posloupnosti a jejich limity, řady

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Interval spolehlivosti pro podíl


Pravděpodobnost a aplikovaná statistika

10.3 GEOMERTICKÝ PRŮMĚR

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

VaR analýza citlivosti, korekce

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Generování dvojrozměrných rozdělení pomocí copulí

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

DIFERENCIÁLNÍ POČET FUNKCE JEDNÉ PROMĚNNÉ. 1) Pojem funkce, graf funkce

Transkript:

Lekce 2 Jedoduchý lieárí regresí model

Co si řekeme v této lekci Trochu opáčko miulé lekce Sezámíme se s jedoduchým regresím modelem Vysvětlíme si co je to regrese Naučíme se jej iterpretovat Metoda ejmeších čtverců Jak úspěšé bylo proložeí dat

Jedoduchý lieárí regresí model Máme pouze jedu ezávisle proměou Vztah mezi závisle proměou (y) a ezávisle proměou (x) je lieárí Získáme ějaká data (y) a (x) (empirické/výběrové hodoty) to co se aměřilo Cílem je popsat vztah mezi (y) a (x) Výos pole a možství hojiva My víme, že zde existuje lieárí vztah čím více hojiva tím větší výos (teorie) Ale evíme, jak přesě má daý vztah vypadat když budu hojit 10kg hojiva a 1 hektar, jaký bude výos? Teoretická (hypotetická) regresí fukce epozorovatelá Teoretický vztah většiou ezáme y = β 0 + β 1. x 1 + ε výos = β 0 + β 1 hojivo + ε výos Empirická regresí fukce je Odhad teoretické regresí fukce ε-mimo jié ostatí proměé ovlivňující výos pole počasí, kvalita půdy atd.. hojivo

x Teoretická a empirická regresí fukce Pro každé pozorováí (i),2 y i = β 0 + β 1. x i + ε i Při eexisteci chyby (ε) Model determiistický (pevá závislost) y=3+2.x y i - i-tá empirická hodota vysvětlovaé proměé (výos pole i) Mzda Míry, Kirilla, Leky ε i - áhodá chyba e i -reziduum rozdíl mezi empirickou regresí fukcí a empirickou hodotou Náhodá chyba ε i - áhodá složka (chyba) rozdíl mezi teoretickou regresí fukcí a empirickou hodotou Na (y) působí další áhodé proměé ež pouze (x) Na pozorováí působí áhodé chyby (epřesé váhy) y y i Empirická regresí fukce ε i e i Reziduum je odhadem áhodé chyby (dopustili jsme se dalších chyb) ε i Teoretická regresí fukce e i

y = β 0 + β 1. x + ε Jedá se o vektorový zápis y i = β 0 + β 1. x i,1 + ε i wage = β 0 + β 1 edu + ε y pepa = β 0 + β 1. x pepa,1 + ε pepa y růža = β 0 + β 1. x růža,1 + ε růža y 1 y 2 y = x 11 1 1x 21. 1x 1 β 0 β 1 + ε 1 ε 2 ε Pro každé pozorováí (i),2 y i = β 0 + β 1. x i + ε i y i - i-tá empirická hodota vysvětlovaé proměé (výos pole i) Mzda Míry, Kirilla, Leky ε i - áhodá chyba

Nezáme skutečý vztah PRF Musíme udělat odhady β 0,1 - b 0,1 Proč? Pro odhad parametrů využíváme růzé techiky OLS (MNČ), GLS(MZNČ), MLM(MMV) Požadavky a odhad Nezkresleý (estraý, evychýleý) Kozistetí Vydatý výos = β 0 + β 1 hojivo + ε Chceme zát ceteris paribus efekt Vlastosti odhadů y = β 0 + β 1 x + ε y = b 0 + b 1 x + e Pokud budou splěy určité předpoklady Metoda ejmeších čtverců ám poskyte požadovaé vlastosti odhadu Pamatovat: β 0,1 jsou parametry (kostaty) ezáme b 0,1 jsou áhodé veličiy mají svoje rozděleí

Požadavky a odhad Nezkresleý (estraý, evychýleý) Kozistetí Vydatý Proč? výos = β 0 + β 1 hojivo + ε y = β 0 + β 1 x + ε y = b 0 + b 1 x + e Pokud budou splěy určité předpoklady Metoda ejmeších čtverců ám poskyte požadovaé vlastosti odhadu Pamatovat: β 0,1 jsou parametry (kostaty) ezáme b 0,1 jsou áhodé veličiy mají svoje rozděleí Provádíme pouze 1 áhodý výběr proto spíše mluvíme o postupu při získáí odhadu pokud budou splěy předpoklady a provedli bychom -áhodých výběrů Odhad parametrů by byl ezkresleý, kozistetí, vydatý - s kozistetím odhadem se pojí že výběr roste do ekoeča více ve vlastostech odhadů Pro 1 áhodý výběr musíme doufat, že získaý vzorek, se blíží základímu souboru Jelikož základí soubor ezáme, emůžeme si být zcela jisti o podobosti se ZS Důležité uvědomit si pro případé využité ekoometrických modelů Pokud budou splěy daé předpoklady Daá metoda vede k ezkresleému, kozistetímu případě i vydatému odhadu

Závislá a ezávislá proměá 1) y = β 0 + β 1. x + ε Skutečý epozorovaý vztah Zajímá ás jak se měí y se změou x Na y kromě x působí další proměé - ε Jiak by body byly a přímce Předpoklad správosti modelu!!! My se pouze domíváme že 1) představuje skutečý vztah y = β 1 x y/ x = β 1 y zavislá vysvětlovaá x ezávislá Vysvětlující y wage y = b 0 + b 1 x y = β 0 + β 1. x respose CONTROL regresad Regresor y = β 1 predicted predictor β 0 x = 1 β 1 sklo β 0 úrovňová kostata x edu

y = β 1 x wage = 0,5 + 0,3edu + ε NEZNÁME wage = 0,3 x Nás PRÁVĚ zajímá jak stupě vzděláí ovliví velikost mzdy Změa (růst) vzděláí o 1 rok avíc Zameá růst mzdy o 0,3 Jedá se o ceteris paribus (když ostatí se eměí) Zůstává fixí wage y = β 0 + β 1. x Proto musíme zavést restrikci pro chováí áhodé složky Chceme aby se změou (x) se měil POUZE y A e ostatí faktory i ty v ε y = β 1 ε = 0 pak y = β 1 x β 0 x = 1 β 1 sklo β 0 úrovňová kostata itercept edu

y = β 0 + β 1. x + ε wage = β 0 + β 1 edu + ε ε = 0 pak y = β 1 x Zovu: a) Zajímá ás jak se měí y se změou x b) Na y kromě x působí další proměé - ε Proto restrikce a vztah x a ε E εȁx = E ε Bez této restrikce bychom ezjistili ceteris paribus efekt β k Je uté, aby (x) a (ε) byly ezávislé Setkáte se s ekorelovaé (slabší předpoklad) Pro ás E εȁx = E ε = 0 ε Pod áhodou složkou si zle představit: Další miorití vlivy Chyby v měřeí Stochastický charakter lidského chováí Možost chybého modelu špatý model Pro (ε) je áhodá proměá předpokládáme, že: Spojeí s úrovovou kostatou E ε = 0 áhodé vlivy se v průměru vyruší Faktory obsažey v áhodé složce jsou v průměru ulové Proč? Korelace řeší lieárí vztah (jak se změí ε když se změí x) Může astat korelace (ε) a (x) je ula, ale korelace (ε) a (x 2 ) apř. 0,6 E εȁx = 0 postihuje i tyto elieárí případy Nedodržeí obecě povede ke zkresleému odhadu x

Pod áhodou složkou si zle představit: Další miorití vlivy Chyby v měřeí Stochastický charakter lidského chováí epředvídatelé faktory Možost chybého modelu 1) vyechaá proměá 2) elieárí vztahy y = β 0 + v y = β 0 + β 1 x 1 + ε v = β 1 x 1 + ε Všechy uvedeé faktory se projeví v áhodé složce A tak i po odhadu v residuích Více residuálí aalýza a porušeí Gauss-Markov přepokladů wage wage = β 0 + β 1 age + β 2 age 2 + ε wage = β 0 + β 1 age + v e x age

Regresí fukce y = β 0 + β 1. x + ε E ȁ y x = β 0 + β 1. x E( wageȁedu) Podmíěá středí hodota jak ovlivňuje hodota (x) středí hodotu (y) jak se měí (y), když se měí (x) v průměru zbavit se dalších vlivů Cílem je popsat co ejlépe vztah Aby v průměru bylo (y) vysvětleo pomocí (x) Aby v průměru další vlivy (ezkreslovali) model V průměru zameá osoba A má vzděláí 10 a mzdu 4 E ȁ ε x = 0 wage = 0,5 + 0,3 10 = 3,5 wage = 0,5 + 0,3edu + ε Regresí aalýza ám eřeke, že osoba Veroika, Míra má přesě daou mzdu Zjistíme však jak vzděláí ovlivňuje její velikost!!! To platí jak pro PRF i SRF!!! ȁ E(ε x) = 0 Jak růzá x ovliví očekávaé (průměré) ε Proměá x je exogeí při eplatosti edogeí Zero-coditioal mea assumptio

mzda = β 0 + β 1. vzděláí + ε Cíl zjistit jak vzděláí ovlivňuje velikost mzdy E ȁ ε x = 0 E ȁ mzda vzděláí = β 0 + β 1. vzděláí Na výši mzdy působí i další vlivy Předpoklad ε=schoposti E Předpokládáme E ȁ schoposti vzděláí = 0 schopostiȁ5 = 0 E schopostiȁ15 = 0 Zjistíme jak růst/pokles vzděláí ovliví velikost mzdy -β 1 Kdy míra schopostí se eměí E ȁ schoposti vzděláí 0 Vzděláí ovliví schoposti i mzdu Odhad β 1 bude zkresleý a ekozistetí

E mzda = β 0 + β 1. vzděláí + ε Cíl zjistit jak vzděláí ovlivňuje velikost mzdy ȁ mzda vzděláí = β 0 + β 1. vzděláí mzda = b 0 + b 1. vzděláí + e b 0 = 146,852 b 1 = 60,2143 mzda = 146,852 + 60,2143. vzděláí + e mzda = 146,852 + 60,2143. vzděláí

mzda = 146,852 + 60,2143. vzděláí + e mzda = 146,852 + 60,2143. vzděláí

E ȁ y x = β 0 + β 1. x E(ε) = 0 E ȁ ε x = 0 mzda = β 0 + β 1. vzdláí + ε E ȁ schoposti vzděláí = 0 Vliv x i a vývoj středí hodoty y i měří změu středí hodoty (y) - tedy E yȁx v závislosti a změě x Pro daý stupeň vzděláí, budeme měit pozorováí Získáme rozdílé hodoty (y) mzdy Vlivem áhodé složky y E E yȁx = β 0 + β 1. x ȁ mzda vzděláí = β 0 + β 1. vzděláí Míra má plat 30 000 a studoval 5 let Jeho plat by měl být 20 000 Jakto? Náhodá složky Míra má MFF ε~iid(0, σ 2 ) Myšleka v průměru 2 5 10 Markéta má plat 18 000 a studoval 5 let Jeho plat by měl být 20 000 Jakto? Rozděleí (hustota) áhodé složky Náhodá složky NF Nepozorovatelá Zatím žádý předpoklad o kokrétím rozděleí áhodé složky x

Hledáí kokrétího tvaru regresí fukce Červeé body začí empirické (apozorovaé) hodoty Musíme ajít vhodou přímku, která ejlépe proloží apozorovaá data Nebo-li určit odhady parametrů b 0,1 tak, aby hodota reziduí byla co ejmeší y i = β 0 + β 1. x i + ε i y i = b 0 + b 1. x i Každou empirickou hodotu y i ahradíme určitou vyrovaou hodotou y i Která bude ležet a zvoleé empirické (výběrové) regresí přímce y Problém je, že takových přímek může existovat ekoečě moho Musíme ajít kritérium ejlépe vystihe daý vztah y 5 y 6 y y 5 y 1 y 2 y 3 y 3 y 4 y 4 = y 4 y 5 y 6 y 1 y 3 y 4 y 6 y 7 y 1 y 2 x y 2 x

Metoda ejmeších čtverců (MNČ,OLS) Jeda z metod jak odhadout parametry β 0 a β 1 další metoda mometů(mom) a maximálí věrohodost (ML) y = β 0 + β 1 x + ε y = b 0 + b 1 x y = b 0 + b 1 x + e Pro OLS si uvedeme 3 způsoby odhadu (každý at si vybere) Pomocí sum (přehledé, epraktické) Maticově (pro sudety eřehledé, praktické) Pomocí tzv. Moetů Problém je, že takových přímek může existovat ekoečě moho Musíme ajít kritérium ejlépe vystihe daý vztah y y 5 y 3 y 4 y 7 y 1 y 6 y 2 x

Zeleé šipky představují odchylku skutečé hodoty od vyrovaé hodoty e i = y i y Otázka: Když už musí existovat odchylky ideálí by bylo jejich vzájemé vykompezováí? e i = y i y i = 0 y y 5 y 6 y 7 Kladé a záporé odchylky se požerou y 3 y 4 y 5 y 7 e i = y i b 0 b 1 x 1 = 0 y 1 y 3 y 4 = y 4 y 6 y 1 y 2 e i -reziduum Rozdíl mezi empirickou regresí fukcí a empirickou (aměřeou) hodotou x

Součet čtverců odchylek empirických hodot y i od hodot teoretických η i byl miimálí Metoda ejmeších čtverců (MNČ, OLS) y = β 0 + β 1 x + ε y = b 0 + b 1 x + e y i = b 0 + b 1. x i e 2 i = (y i y i ) 2 mi y y 7 e 2 i = (y i b 0 b 1 x 1 ) 2 mi y 5 y 6 y 3 y 4 y 5 y 6 y 7 e i = 0 y 1 y 2 y 3 y 4 = y 4 Rozlišovat y 1 y 2 e 2 i mi x

y 1 = 2 + 3. x y 2 = 6 + 2. x 40 yi yh1 yh2 x 4,619272 3 8 1 6,978375 6 10 2 12,03277 9 12 3 13,16558 12 14 4 17,30086 15 16 5 21,27362 18 18 6 22,08428 21 20 7 25,91345 24 22 8 29,03446 27 24 9 33,40373 30 26 10 35 30 25 20 15 10 5 e1 e2 1,619272-3,38073 0,978375-3,02163 3,032772 0,032772 1,165584-0,83442 2,300861 1,300861 3,273617 3,273617 1,084276 2,084276 1,913448 3,913448 2,034462 5,034462 3,403726 7,403726 20,80639 15,80639 e1^2 e2^2 2,622043 11,42932 0,957217 9,13022 9,197708 0,001074 1,358586 0,69625 5,293963 1,692241 10,71657 10,71657 1,175654 4,344205 3,661282 15,31507 4,139034 25,3458 11,58535 54,81516 50,70741 133,4859 0 0 2 4 6 8 10 12

Přímková regrese y = β 0 + β 1. x + ε y = b 0 + b 1. x e 2 i = (y i y i ) 2 mi Q mi hledáme extrém miimum b 0 je odhad β 0 b 1 je odhad β 1 Q = (y i b 0 b 1. x i ) 2 Tedy takové b 0,1, které budou miimalizovat fukci Q 2 Q = (y i b 0 b 1. x i ) 2 = (y 1 b 0 b 1. x 1 ) 2 +(y 2 b 0 b 1. x 2 ) 2 Idex i představuje i-té pozorováí Mzdu, vzděláí Natáliye Q = 2 b 0 y i b 0 b 1. x i. 1 = 0 Q b 0 = 2. y 1 b 0 b 1. x 1. 1 + 2. y 2 b 0 b 1. x 2. 1 = 0 Q = 2 b 1 y i b 0 b 1. x i. x i = 0 Q b 1 = 2. y 1 b 0 b 1. x 1. x 1 + 2. y 2 b 0 b 1. x 2. x 2 = 0

Q = 2 b 0 y i b 0 b 1. x i. 1 = 0 Q = 2 b 1 y i b 0 b 1. x i. x i = 0 y i b 0 b 1. x i = 0 y i =. b 0 +b 1 തy =. b 0 +b 1 xҧ തy = b 0 + b 1 xҧ b 0 = തy b 1 xҧ x i y i b 0 b 1. x i. x i = 0 y i. x i = b 0 x i + b 1 y i. x i = b 0 x ҧ + b 1 x i 2 x i 2 y i. x i = (തy b 1 x) ҧ x ҧ + b 1 y i. x i = തy xҧ b 1 xҧ 2 + b 1 x i 2 x i 2 pozor suma ҧ x = x i

ҧ y i. x i = തy xҧ b 1 xҧ 2 + b 1 y i. x i തy x ҧ = b 1 x 2 i xҧ 2 x i 2 Pozor a idexy!!! xҧ 2 = x i 2 = 1 x i x i y i. x i തy xҧ x 2 i xҧ 2 = b 1 x i =. xҧ x i x ҧ. y i തy = y i x i x ҧ = x i (y i തy) (y i. x i y i x) ҧ (x 2 i x i x) ҧ = b 1 x i x ҧ. y i തy b x i xҧ 2 = b 1 = 1 Cov(x, y) Var(x) (x 2 i x i x) = x i xҧ 2 b 0 = തy b 1 xҧ

ҧ ҧ x ҧ = x i x i =. xҧ x i x ҧ. y i തy = y i x i x ҧ = x i (y i തy) x i x ҧ. y i തy = (x i y i x i തy xy ҧ i + xҧ തy) = x i y i തy (x 2 i x i x) = x i xҧ x i xҧ 2 = x i xҧ 2 y i + xҧ തy = x 2 i 2xҧ x i + xҧ 2 = x i y i തy xҧ xҧ തy + xҧ തy = x i y i തy x ҧ = = x i y i തy x i = x i (y i തy) x 2 i 2x ҧ x ҧ + xҧ 2 = = x 2 i xҧ 2 = (x 2 i x i x) തy x ҧ = തy x i = xҧ y i

y 1 = 2 + 3. x y 2 = 6 + 2. x 40 yi yh1 yh2 x 4,619272 3 8 1 6,978375 6 10 2 12,03277 9 12 3 13,16558 12 14 4 17,30086 15 16 5 21,27362 18 18 6 22,08428 21 20 7 25,91345 24 22 8 29,03446 27 24 9 33,40373 30 26 10 Nekoečě moho přímek 35 30 25 20 15 10 5 e1 e2 1,619272-3,38073 0,978375-3,02163 3,032772 0,032772 1,165584-0,83442 2,300861 1,300861 3,273617 3,273617 1,084276 2,084276 1,913448 3,913448 2,034462 5,034462 3,403726 7,403726 20,80639 15,80639 e1^2 e2^2 2,622043 11,42932 0,957217 9,13022 9,197708 0,001074 1,358586 0,69625 5,293963 1,692241 10,71657 10,71657 1,175654 4,344205 3,661282 15,31507 4,139034 25,3458 11,58535 54,81516 50,70741 133,4859 0 0 2 4 6 8 10 12

Regresí koeficiet (výběrový regresí koeficiet) Směrice (sklo) regresí přímky Může abýt libovolých hodot!!! Přímková regrese je lieárí regresí fukce (lieárí v parametrech) Obráceě emusí platit!!! b 1 = y i = b 0 + b 1. x b xy = s xy s x 2 x i x ҧ. (y i തy) x i xҧ 2 PŘÍMKOVÁ REGRESE!!! JEDNODUCHÝ RM!!! Zaméko kovariace udává zaméko odhadu parametru!! Proč? b 1 = Cov(x, y) var(x) cov(x, y) > 0 cov(x, y) < 0 cov x, y = 0 Lieárí ezávislost

Excel Neaplikovat a víceásobou regresi!!! Cov x, y = 1 1 x i x ҧ. (y i തy) log wage = β 0 + β 1 educ + ε Var x = 1 1 x i xҧ 2 b 1 = Cov(x, y) var(x) b 0 = തy b 1 xҧ e i = 0 Rozlišovat e 2 i mi

Metoda mometů Cov x, ε = 0 E xε = 0 E ε = 0 E ȁ ε x = E ε = 0 y = β 0 + β 1 x + ε E X, E Y = 0 Cov X, Y = E X E X. Y E Y E XY XE Y E X. Y + E X. E Y E(XY) Dvě podmíky x i xҧ x i = x i xҧ 2 A x i y i തy = x i x ҧ. (y i തy) E ε = 0 E y β 0 β 1 x = 0 E xε = 0 E x. y β 0 β 1 x = 0 1 1.. Pro výběrový soubor o pozorováí platí y i b 1 b 2 x i = 0 x i y i b 1 b 2 x i = 0 തy b 1 b 2 xҧ 1. b 1 = തy b 2 xҧ x i y i (തy b 2 x) ҧ b 2 x i = 0 x i (y i തy) = b 2 x i ( xҧ x i ) b 2 = x i (y i ഥy) x i (ഥx x i ) b 2 = b 2 = Cov(x, y) var(x) x i xҧ 2 > 0 x i x ҧ. (y i തy) x i xҧ 2

1. y i b 1 b 2 x i = 0 1. x i y i b 1 b 2 x i = 0 To je odhad mometů!!! μ 1 = E y i prví momet μ 2 = E y 2 i druhy momet jejich odhady μ 1 = 1 y i μ 2 = 1 y i 2 θ = E x i y i መθ = 1 x iy i

Vlastosti OLS OLS je techika, díky které získáme odhad ezamých parametrů Zároveň získáme odhad áhodé chyby residua Vlastosti residuí budou spojey s daým OLS odhadem Důležité si uvědomit pro hodoceí modelů y = β 0 + β 1. x + ε y = b 0 + b 1. x + e e 2 i = (y i y i ) 2 mi Odhad pomocí OLS má ěkteré zajímavé matematické vlastosti: e i = 0 x i. e i = 0 Tedy i výběrový průměr = 0 výběrová kovariace = 0 Excel Rová se suma NE jedotlivé součiy V průměru se kladé a záporé hodoty vyruší Zároveň xҧ തy vždy leží a OLS regresí přímce തy = b 0 + b 1 xҧ y i = y i + e i തy = ത y I the populatio: E[ X' ] = 0 I the sample: 1 N N i 1 xe 0 i i

y Zároveň xҧ തy vždy leží a OLS regresí přímce തy = b 0 + b 1 xҧ തy y i = y i + e i തy = ത y xҧ x Průměré hodoty vždy leží a fit přímce

y i = y i + e i Zajímá ás, jak moc se měí (kolísá) y i Jak moc je y i rozprostřeo ve výběrovém souboru 1 1 y i തy 2 Výběrový rozptyl SST = y i തy 2 Lze rozdělit jako: Rozptyl v y i (celkový součet čtverců) SSE = y i തy 2 Rozptyl v y i (vysvětleý součet čtverců) SSR = e i 2 Rozptyl v e i (residuálí součet čtverců) E e = 0 SST = SSE + SSR Total sum of squares =explai sum of squares + residual sum of squares Pozor používá se více ázvů

Když uděláme odhad parametrů pomocí OLS Lze rozdělit apozorovaé hodoty y i a dvě části Vyrovaé hodoty a rezidua y i = y i + e i y i = b 0 + b 1 x i SST = y i തy 2 SSE = y i തy 2 SSR = Total sum of squares Explaied sum of squares Residual sum of squares SST = SSE + SSR e 2 y y 5 e 5 čím více jsou fialové a červeé čtverce podobé tím lépe y 5 തy x

čím více jsou fialové a červeé čtverce podobé tím lépe Jak OLS regresí přímka afituje data Neí to tak jasé, ale jsou to čtverce y y 5 y y 5 e 5 e 5 y 5 y 5 തy തy x x

Užitečé mít hodotu, jedo číslo, které shre jak regrese pomocí OLS fituje hodoty Vytvořeí SRF zároveň získáme jedotlivá rezidua Čím větší bude hodota reziduí tím méě bude SRF fitovat aměřé hodoty y i SST = SSE + SSR /SST Jak hodotit kvalitu OLS metody SST = y i തy 2 SSE = y i തy 2 SSR = e i 2 R 2 = 1 = SSE SST + SSR SST SSE SST = R2 = 1 SSR SST vysvětleý rozptyl (díky x) celkový rozptyl (y) Část(zlomek, proceto ) Rozptylu v (y), který se podařil vysvětlit působeím (x) (100. R2) v % Koeficiet determiace R 2 =< 0,1 > R 2 = 1 perfektí proložeí SSE = SST, tedy SSR = 0 R 2 = 0 Vyjadřuje stupeň vysvětleí celkové změy závislé edogeí proměé y regresí při působeí všech ezávislých exogeích proměých x zahrutých v regresím modelu Využití pro ověřeí shody odhadutého modelu s apozorovaými daty

Předpoklad úrovňové kostaty Jiak emusí být 0 R 2 1 SSE SST = R2 = 1 SSR SST Na koeficiet determiace můžeme pohlížet také jako a kvadrát korelace mezi aměřeými hodotami y i A afitovaými hodotami y i R 2 = Cov y, y 2 Var y. Var( y) R 2 = y i തy 2 y i തy 2 ത y = തy R 2 = y i തy 2. y i ത y 2 2 y i തy 2. y i ത y 2

Pokud model vykazuje ízké R2, utě to ezameá, že je modeleužitečý, špatý atd. Model může dobře vystihovat vztah závislé a ezávislé proměé když ostatí proměé jsou zafixováy (Ceteris paribus ) Příklad 2.8 + výstup z gretlu

Regrese z počátku y = b 0 + b 1 x b 1 = x i x ҧ. (y i തy) x i xҧ 2 Parametr β 0 často eiterpretujeme Nezahrutí úrovňové kostaty Nelze použít R 2 Pokud β 0 0 pak odhad b 1 zkresleý Pokud β 0 = 0 a my jej zahreme do modelu b 1 NEzkresleý zvýsí se však jeho rozptyl (více v dalších kapitolách) Q = (y i b 0 b 1. x i ) 2 Q = 2 b 0 Q = 2 b 1 y i b 0 b 1. x i. 1 = 0 y i b 0 b 1. x i. x i = 0 y y = β 0 + β 1. x + ε y = β 1. x + ε y = b 1. x 1 b 1 = x i y i 2 x i b 1 = b 1 pouze když x ҧ = 0 x x i x ҧ. y i തy = y i x i x ҧ = x i (y i തy)

Co bychom si měli z této lekce odést Co je to přímková regrese Iterpretace parametrů Metoda ejmeších čtverců matematicky Hodoceí modelu pomocí R^2 Úskalí spojea s regresí z počátku