Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz
Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu) této závislosti pomocí vhodné funkce vystihnout pomocí regresní funkce průběh (trend) závislosti mezi X a Y na základě znalosti dvojic empirických hodnot [x i, y i ], kde i = 1, 2,..., n.
Regresní analýza Hledáme regresní funkci Y = f (X, β 0, β 1,..., β p ) = E(Y X ), kde β j, j = 0, 1,..., p jsou regresní parametry. Regresní funkce charakterizuje závislost podmíněných středních hodnot náhodné veličiny Y na hodnotách náhodné veličiny X. Na Y působí kromě X i další vlivy, proto se budou empirické hodnoty y i více či méně lišit od teoretické hodnoty Y i, tj. platí Lineární regresní funkce má tvar y i = Y i + ɛ i, i = 1, 2,..., n. Y = β 0 f 0 (X ) + β 1 f 1 (X ) + + β p f p (X ), kde f j (X ), j = 0, 1,..., p se nazývají regresory (obvykle f 0 (X ) = 1 konstanta), počet regresorů je obecně c = p + 1.
Regresní analýza Některé typy lineárních regresních funkcí: přímková regrese Y = β 0 + β 1 X, hyperbolická regrese Y = β 0 + β1 X, logaritmická regrese Y = β 0 + β 1 ln X, parabolická regrese Y = β 0 + β 1 X + β 2 X 2 polynomická regrese Y = β 0 + β 1 X + + β p X p Některé typy nelineárních regresních funkcí: exponenciální regrese Y = β 0 β X 1, mocninná regrese Y = β 0 X β1.
Regresní analýza Označíme-li odhady parametrů β 0, β 1,..., β p jako b 0, b 1,..., b p, dostaneme odhady lineárních regresních modelů ve tvaru ŷ = f (x, b 0, b 1,..., b p ), nazveme je výběrová regresní funkce. (např. pro přímkovou regresi má výběrová regresní funkce tvar ŷ = b 0 + b 1 x) S využitím této výběrové regresní funkce, tzv. vyrovnané hodnoty, můžeme vztah y = Y + ɛ vyjádřit ve tvaru y = ŷ + e, kde e = y ŷ je tzv. reziduum, resp. ve tvaru y i = ŷ i + e i, i = 1,..., n, kde e i = y i ŷ i je reziduum pro i-té měření.
Klasický regresní model Nejjednodušší z lineárních regresních modelů je tzv. klasický regresní model hodnoty X jsou volené - nastavované (X není náhodná veličina), regresní funkce je lineární vzhledem k parametrům, soustava normálních rovnic má právě 1 řešení matice hodnot regresorů f j (x), j = 0, 1, 2,..., p, má hodnost p + 1 sloupce matice hodnot regresorů jsou lineárně nezávislé náhodné složky ɛ i jsou nezávislé a mají normální rozdělení N(0, σ 2 ) E(ɛ i ) = 0, D(ɛ i ) = σ 2, i = 1, 2,..., n. Poznámka: z předpokladu o rozdělení náhodných složek ɛ i vyplývá, že v klasickém regresním modelu mají pozorované hodnoty y i vysvětlované proměnné Y normální rozdělení se středními hodnotami µ i = E(y i x i ) s rozptylem σ 2 = D(ɛ i ) = D(y i x i ), hodnoty y i jsou navzájem nezávislé.
Odhady regresních parametrů Cílem metod určení parametrů je odhad parametrů zvolené regresní funkce tak, aby se hodnoty ŷ i (tzv. vyrovnané hodnoty) náhodné veličiny Y ležící na této regresní funkci co nejtěsněji přimykaly pozorovaným (empirickým) hodnotám y i pro dané hodnoty x i náhodné veličiny X.
Odhady regresních parametrů Základní metodou určení parametrů regresní funkce je metoda nejmenších čtverců (MNČ). Tato metoda vychází z požadavku, aby součet čtverců odchylek empirických hodnot y i a vyrovnaných hodnot ŷ i (reziduí) reziduální součet čtverců S R byl minimální, tj. min S r = min (y i ŷ i ) 2 = min ei 2. Z matematiky je známo, že nutnou podmínkou pro existenci extrému funkce 2 a více proměnných je nulovost prvních parciálních derivací, tj. S R β 0 = S R β 1 = = S R β p = 0, podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkce S R je ryze konvexní. Dostáváme p + 1 rovnic (tzv. normálních rovnic), jejichž řešením obdržíme odhady parametrů regresní funkce b 0 = ˆβ 0, b 1 = ˆβ 1,..., b p = ˆβ p.
Odhady regresních parametrů Regresní funkce určená metodou nejmenších čtverců má tyto vlastnosti: n (y i ŷ i ) = 0 prochází vždy bodem [x, y] odhad regresní funkce MNČ je nejlepším nestranným odhadem
Odhady regresních parametrů Regresní přímka: ŷ = b 0 + b 1 x S r = (y i ŷ i ) 2 = (y i (b 0 + b 1 x i )) 2 = S r b 0 = 2 S r b 1 = 2 (y i b 0 b 1 x i ) 2 (y i b 0 b 1 x i )( 1) = 0 (y i b 0 b 1 x i )( x i ) = 0 dostáváme soustavu normálních rovnic b 0 n + b 1 x i = b 0 x i + b 1 x 2 i = y i x i y i
Odhady regresních parametrů Soustavu vyřešíme např. Cramerovým pravidlem a dostaneme odhady parametrů n b 0 = y n i x i 2 n x n i x iy i n n x i 2 ( n x ) 2 i b 1 = n n x iy i n x n i y i n n x i 2 ( n x ) 2 i
Odhady regresních parametrů maticové vyjádření Regresní model je možné zapsat ve tvaru Y = Xβ + ɛ kde Y = (Y 1, Y 2... Y n ), β = (β 0, β 1,..., β p ), ɛ = (ɛ 1, ɛ 2,..., ɛ n ), f 0 (x 1 ) f 1 (x 1 )... f p (x 1 ) f 0 (x 2 ) f 1 (x 2 )... f p (x 2 ) X =.... f 0 (x n ) f 1 (x n )... f p (x n ) je matice regresorů. V případě přímkové regrese je matice regresorů rovna 1 x 1 1 x 2 X =.. 1 x n
Odhady regresních parametrů maticové vyjádření Odhady parametrů získané MNČ mají tvar b = (X X) 1 X Y
Odhady b 0, b 1,..., b p parametrů β 0, β 1,..., β p získané MNČ jsou jejich nestranné odhady, tedy platí E(b j ) = β j pro j = 0, 1,..., p. Představu o tom, jaké chyby můžeme při bodových odhadech očekávat, poskytují směrodatné odchylky směrodatné chyby těchto bodových odhadů s(b j ). K jejich určení potřebujeme znát rozptyl náhodných složek D(ɛ i ) = σ 2, který je neznámý. Odhadneme jej pomocí reziduálního rozptylu sr 2 = S R n c = 1 (y i ŷ i ) 2, n c kde c je počet neznámých (odhadovaných) regresních parametrů, S R je reziduální součet čtverců. Maticově S R = Y Y b X Y.
Pro regresní přímku je potom S r = (y i b 0 b 1 x) = = ( sr 2 = 1 yi 2 b 0 n 2 y 2 i b 0 y i b 1 y i b 1 ) x i y i. x i y i,
Intervalové odhady Regresní analýza Jsou-li splněny předpoklady klasického regresního modelu, mají potom regresní koeficienty b j normální rozdělení, tedy platí kde rozptyly D(b j ) jsou rovny b j N(β j, D(b j )), D(b 0 ) = σ 2 h 00, D(b 1 ) = σ 2 h 11,..., D(b p ) = σ 2 h pp, pričemž h 00, h 11,..., h pp jsou prvky na hlavní diagonále matice H = (X X) 1. Rozptyly odhadů regresních parametrů musíme odhadnout ˆD(b j ) = sr 2 h jj s(b j ) = sr 2 h jj
Intervalové odhady Regresní analýza Pro regresní přímku ŷ = b 0 + b 1 x dostaneme n s(b 0 ) = s x i 2 R n n x i 2 ( n x i n s(b 1 ) = s R n n x i 2 ( n x i ) 2 ) 2
Intervaly spolehlivosti pro regresní parametry β j Východiskem pro konstrukci intervalů spolehlivosti parametrů β j při platnosti předpokladů klasického regresního modelu jsou statistiky t j = b j β j s(b j ) t(n c) pro j = 0, 1,... p, kde b j je bodový odhad parametru β j, s(b j ) je směrodatná chyba tohoto odhadu. Oboustranný interval spolehlivosti má potom tvar b j t 1 α/2 (n c) s(b j ) < β j < b j + t 1 α/2 (n c) s(b j ). Pokud tento interval pro určitý parametr obsahuje nulu, lze usoudit na hladině významnosti α, že tento parametr je statisticky nevýznamný.
Testy hypotéz o významnosti regresních parametrů β Statisticky významným parametrem β j se rozumí nenulový parametr, proto budeme testovat Testovým kritériem je statistika H : β j = 0 A : β j 0. t j = b j β j s(b j ), kritický obor je W α : t j t 1 α/2 (n c)
Intervalové odhady pro regresní funkci Intervaly spolehlivosti pro regresní funkci Y i (podmíněné střední hodnoty) jsou založené na tom, že při platnosti předpokladů klasického regresního modelu jsou statistiky t i = ŷi Y i s(ŷ i ) t(n c) pro i = 1, 2,..., n, kde ŷ i je bodový odhad podmíněné střední hodnoty Y i pro hodnotu x i, s(ŷ i ) je směrodatná chyba (odchylka) bodového odhadu ŷ i. Odtud lze klasicky odvodit vztah pro oboustranný intervalový odhad. ŷ i t 1 α/2 (n c) s(ŷ i ) < Y i < ŷ i + t 1 α/2 (n c) s(ŷ i ).
Intervalové odhady pro regresní funkci Rozptyl vyrovnaných hodnot je D(ŷ i ) = σ 2 x ihx i. kde x i = (1, f 1 (x i ), f 2 (x i ),..., f p (x i )) je vektor hodnot regresorů pro hodnotu x i. Pro rozptyl resp. směrodatnou chybu odhadu podmíněné střední hodnoty Y i, tj. pro s 2 (ŷ i ) platí s 2 (ŷ i ) = s 2 Rx ihx i s(ŷ i ) = s R x i Hx i.
Intervalové odhady pro regresní funkci Pro regresní přímku ŷ = b 0 + b 1 x dostáváme s(ŷ i ) = s R x i Hx i = s R 1 n + ( x i n x 2 i P n ) 2 xi n (P n xi)2 n
Intervalové odhady pro individuální předpovědi Pro rozptyl individuálních hodnot platí, že je o σ 2 větší než rozptyl vyrovnaných hodnot, tedy platí D(ŷ i0 ) = σ 2 + σ 2 x ihx i = σ 2 (1 + x ihx i ). Při určování odhadů individuálních hodnot Y i0 při určování odhadů individuálních hodnot ŷ i0 ve tvaru s 2 (ŷ i0 ) = σ 2 R(1 + x ihx i ) s(ŷ i0 ) = s R 1 + x i Hx i. Interval spolehlivosti pro individuální předpověď Y i0 je ŷ i0 t 1 α/2 (n c) s(ŷ i0 ) < Y i0 < ŷ i0 + t 1 α/2 (n c) s(ŷ i0 )
Intervalové odhady pro individuální předpovědi Pro regresní přímku ŷ = b 0 + b 1 x dostáváme s(ŷ i0 ) = s R 1 + x i Hx i = s R 1 + 1 n + ( x i n x 2 i P n ) 2 xi n (P n xi)2 n
Test o významnosti regresního modelu Zřejmě platí, že y i y = (y i ŷ i ) + (ŷ i y). Lze ukázat, že také platí (y i y) 2 = (y i ŷ i ) 2 + (ŷ i y) 2 S Y = S R + S T, kde celkový součet čtverců S Y = y y ny 2 S Y = (y i y) 2 = n s 2 (y), kde s 2 (y) = 1 n (y i y) 2 reziduální součet čtverců S R = y y b X y S R = (y i ŷ i ) 2 = (n c) sr(y), 2 kde sr(y) 2 = 1 n c teoretický součet čtverců S T = b X y ny 2 S T = (ŷ i y) 2 = n s 2 (ŷ), kde s 2 (ŷ) = 1 n (y i ŷ i ) 2 (ŷ i y) 2
Test o významnosti regresního modelu Pro regresní přímku ŷ = b 0 + b 1 x dostáváme S R = = S T = (y i ŷ i ) 2 = y 2 i b 0 (y i b 0 b 1 x i ) 2 = = y i b 1 (ŷ i ŷ i ) 2 = = b 0 y i + b 1 x i y i ( b 0 + b 1 x i 1 n ( ) 2 x i y i 1 y i n S Y = S R + S T = = y 2 i ( ) 2 1 y i n y 2 i ) = =
Test o významnosti regresního modelu teoretický součet čtverců S T je ta část celkového součtu čtverců S Y, která je vysvětlená zvolenou regresní funkcí reziduální součet čtverců S R je ta část celkového součtu čtverců S Y, která zvolenou regresní funkcí vysvětlená není
Test o významnosti regresního modelu Test o významnosti modelu celkový F -test H : β 0 = k, k 0, β 1 = β 2 = = β p = 0 A : β j 0 pro alespoň jedno j = 1, 2,..., p Testové kritérium je statistika F = S T (y) c 1 S R (y) n c F (c 1, n c), kde c = p + 1 je počet odhadovaných parametrů. Kritický obor je W α : F > F 1 α (c 1, n c).
Test o významnosti regresního modelu Jsou-li celkový F -test i všechny t-testy jsou statisticky významné, model se považuje za vhodný k vystižení variability proměnné Y (to však ještě neznamená, že je model správně navržen). Jsou-li celkový F -test i všechny t-testy jsou statisticky nevýznamné, model se považuje za nevhodný, protože nevystihuje variabilitu proměnné Y. Je-li celkový F -test statisticky významný, ale některé t-testy vychází nevýznamné, model se považuje za vhodný, ale provádí se zpravidla vypuštění nevýznamných parametrů. Je-li celkový F -test statisticky významný, ale všechny t-testy vychází nevýznamné paradox: formálně model jako celek vyhovuje, ale žádný člen modelu sám o sobě významný není jde o důsledek tzv. multikolinearity, tj. lineární závislosti mezi jednotlivými regresory.
Regresní analýza Těsností závislosti rozumíme stupeň, s jakým se zkoumaná závislost blíží k funkční závislosti. Vztah mezi proměnnými X a Y může mít různou intenzitu, od úplné nezávislosti až po pevnou (funkční) závislost. Představu o síle závislosti můžeme získat z bodového diagramu (podle rozložení bodů okolo regresní křivky) pomoci měr těsnosti závislosti
Regresní analýza Poměr determinace p 2 yx (viz ANOVA) p 2 yx = S M(y) S C (y), p2 yx 0, 1 udává, jaké procento variability proměnné Y je vysvětlené proměnnou X (jaké procento meziskupinové variability se podílí na celkové variabilitě). Tento poměr není závislý na zvolené regresní funkci, ale vyžaduje roztříděná data (korelační tabulka).
Regresní analýza Index determinace i 2 yx i 2 yx = S T (y) S Y (y), i 2 yx 0, 1 udává, jaké procento variability proměnné Y lze vysvětlit zvoleným regresním modelem. Tento poměr vychází ze zvolené regresní funkce. V případě, kdy regresní funkce je přímka, použijeme název koeficient determinace a značíme jej r 2 yx.
Regresní analýza Čím více se i 2 blíží k 1, tím považujeme danou závislost za silnější, a tedy dobře vystiženou použitou regresní funkcí; naopak čím více se bude blížit k 0, tím považujeme danou závislost za slabší a regresní funkci za méně výstižnou. Nízká hodnota i 2 ještě nemusí znamenat nízký stupeň závislosti mezi proměnnými, ale může to signalizovat chybnou volbu regresní funkce. Kritéria vhodnosti použité regresní funkce pro popis závislosti: čím je i 2 blíže k 1, tím vhodnější je použitý model obecně platí i 2 p 2, potom čím je i 2 blíže p 2 tím je použitý model lepší
Regresní analýza i 2 yx představuje výběrový index determinace, který lze použít jako odhad teoretického indexu determinace I 2 yx (Î 2 yx = i 2 yx). Tento odhad je asymptoticky nestranný, navíc ale tento odhad pro malé výběry nadhodnocuje skutečnou těsnost závislosti, záleží i na počtu parametrů regresní funkce. Provádíme proto korekci tento odhad je již nestranný. i 2 kor = 1 (1 i 2 ) n 1 n c,
Regresní analýza Regresní model obsahující více než jednu vysvětlující proměnnou se nazývá model vícenásobné regrese. Omezíme se na model regrese se dvěma nezávisle proměnnými. Nechť Y i = β 0 + β 1 x i + β 2 z i + ɛ i, i = 1,..., n. Matice regresorů má tvar 1 x 1 z 1 1 x 2 z 2 X =.... 1 x n z n
Regresní analýza Odhady určíme podle vztahu b = (X X) 1 X Y, s 2 R = 1 n c (Y Y b X Y), kde Y = (Y 1, Y 2,..., Y n ). Testy hypotéz o významnosti regresních koeficientů a celkového modelu se provádějí podobně jako u lineární regrese s jednou vysvětlující proměnou.
Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace V regresní analýze jsme se doposud zabývali jednostrannými závislostmi a popisovali jsme formu závislosti vysvětlované proměnné Y na vysvětlující (ale nenáhodné, pevné, nastavené) proměnné X. Oboustrannými závislostmi mezi náhodnými veličinami X a Y se věnuje korelační analýza.
Korelační koeficient Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace Definice Korelační koeficient náhodných veličin X a Y je definován vztahem ρ(x, Y ) = C(X, Y ) = C(X, Y ) D(X ) D(Y ) σ(x )σ(y ). Pro korelační koeficient platí: 1 ρ(x, Y ) 1, jestliže jsou X a Y nezávislé, pak ρ(x, Y ) = 0, ρ(x, Y ) = 1 právě když Y = ax + b, kde a > 0, ρ(x, Y ) = 1 právě když Y = ax + b, kde a < 0.
Dvourozměrné normální rozdělení Korelační koeficient Koeficient mnohonásobné korelace Definice Má-li náhodný vektor X = (X, Y ) sdruženou hustotu pravděpodobnosti 1 f (x, y) = p 2πσ 1σ 2 1 ρ 2 j 1 (x µ1) 2 exp + 2(1 ρ 2 ) σ 2 1 (y µ2)2 σ 2 2 «ff 2ρ(x µ1)(y µ2) σ 1σ 2 pro x, y R, pak říkáme, že má dvourozměrné normální rozdělení s parametry µ 1, µ 2, σ 1, σ 2, ρ. Věta Nechť X = (X, Y ) má dvourozměrné normální rozdělení s parametry µ 1, µ 2, σ 1, σ 2, ρ, potom X N(µ 1, σ 2 1 ) a Y N(µ 2, σ 2 2 ), ρ je korelační koeficient X a Y.
Dvourozměrné normální rozdělení Korelační koeficient Koeficient mnohonásobné korelace Obrázek: Graf dvourozměrného normálního rozdělení
Korelační koeficient Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace Empirickým protějškem korelačního koeficientu ρ výběrový korelační koeficient (koeficient korelace) r r = s xy s x s y, kde s xy = 1 n 1 n (x i x)(y i y) je výběrová kovariance, s x a s y jsou výběrové směrodatné odchylky. Korelační koeficient r lze vyjádřit ve tvaru r = n n x iy i n x n i y i n n x i 2 ( n x i ) 2 n n y i 2 ( n y i ) 2
Korelační koeficient Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace Koeficient determinace je pro závislost popsanou regresní přímkou zvláštním případem indexu determinace, tedy platí ryx 2 = S T S Y. Tato míra těsnosti závislosti má zcela stejné vlastnosti jako iyx. 2 Výběrový koeficient determinace ryx 2 lze použít jako odhad teoretického koeficientu determinace ρ 2 v základním souboru. Úpravou získáme nestranný odhad ρ 2. r 2 kor = 1 (1 r 2 ) n 1 n 2
Korelační koeficient Koeficient mnohonásobné korelace Test významnosti korelačního koeficientu Testové kritérium je statistika Kritický obor je dán t = H : ρ = 0 A : ρ 0 r 1 r 2 n 2 t(n 2). W α : t > t 1 α/2 (n 2). Pokud hodnota testového kritéria padne do kritického oboru, podařila se prokázat lineární závislost mezi sledovanými proměnnými.
Korelační koeficient Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisle proměnných X 1, X 2,... X k na závisle proměnnou Y a určuje spolehlivost regresního odhadu. Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěma nezávisle proměnnými (Y i = β 0 + β 1 x i + β 2 z i + ɛ i ) je roven r y,xz = ryx 2 + ryz 2 + 2r yx r yz r xz 1 rxz 2, kde r yx je výběrový korelační koeficient mezi hodnotami y i a x i, r yz je výběrový korelační koeficient mezi y i a z i a r yx je výběrový korelační koeficient mezi x i a z i. Jeho druhou mocninou je index determinace.
Regresní analýza užívá řadu dalších funkcí, které nejsou lineární vzhledem k parametrům nelineární regresní modely: nelineární regresní funkce, které lze linearizovat, např. regresní exponenciální funkce Y = β 0β1 X ; Y = β 0e β 1X regresní mocninná funkce Y = β 0X β 1 Törnquistova křivka I Y = β 0X β 1 +X nelineární regresní funkce, které nelze linearizovat, např. regresní exponenciální funkce Y = β 0β1 X + β 2; Y = β 0e β1x + β 2 regresní mocninná funkce Y = β 0X β 1 + β2 Törnquistovy křivka II a III Y = β 0(X β 1 ) β 2 ; Y = β 0X (X β 1 ) +X β 2 +X Odhad parametrů těchto a dalších nelineárních regresních funkcí nelze provádět metodou nejmenších čtverců. Postupuje se tak, že se nejprve najde vhodný tzv. počáteční odhad, který se dále numerickými (iteračními) metodami postupně zlepšuje.
Linearizující transformace Linearizující transformace spočívá v tom, že se vhodnou transformací převede nelineární funkce Y na lineární funkci Y. Parametry lineární funkce Y se odhadnou metodou nejmenších čtverců a zpětnou transformací obdržíme odhady parametrů původní funkce Y. Příklad 1: transformace: ln ŷ = ln b 0 + x ln b 1 lineární model: y = b 0 + b 1 x substituce: y = ln ŷ, x = x b 0 = ln b 0 b 0 = e b 0 b 1 = ln b 1 b 1 = e b 1 Y = β 0 β X 1 ŷ = b 0 b x 1
Linearizující transformace Příklad 2: Y = transformace: 1 ŷ = b1+x b 0x = b1 lineární model: y = b0 + b 1 x substituce: y = 1 ŷ, x = 1 x b0 = 1 b 0 b 0 = 1 b0 b1 = b1 b 0 b 1 = b 0 b1 β 0X β 1 + X ŷ = b 0x b 1 + x b 0 1 x + 1 b 0
Poznánka: Je třeba si uvědomit, že vlastnosti, které platí pro odhad regresní funkce získaný klasickou metodou nejmenších čtverců, platí pouze pro transformovanou funkci. Důsledkem toho je, že odhady jednotlivých regresních koeficientů užitého modelu nesplňují podmínku nestrannosti. V případě, že linearizující transformace není možná, je třeba použít jiných metod, např. metodu vybraných bodů apod.