Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Transkript

1 Ekonometrie Jiří Neubauer, Jaroslav Michálek Katedra ekonometrie FVL UO Brno kancelář 69a, tel J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 1 / 49

2 Zobecněný lineární model Lineární regresní model patří k nejpoužívanějším metodám statistické analýzy vícerozměrných dat v ekonometrii. Nabízí možnost vyjádření vztahu mezi vysvětlovaná proměnnou (odezvou) a množinou vysvětlujících proměnných (regresorů) pomocí regresní funkce, která je lineární funkcí neznámých odhadovaných parametrů. V některých situacích ale předpoklad linearity není splněn a potom je potřeba přejít ke složitějším matematickým modelům a zabývat se modely, kde regresní funkce není lineární funkcí neznámých parametrů. V mnohých vybraných situacích se vystačí s regresní funkcí, která je sice nelineární funkcí vybraných parametrů, ale je funkcí lineární kombinace vysvětlujících proměnných, přičemž koeficienty této lineární kombinace jsou neznámé parametry. Takové modely se nazývají zobecněné lineární modely. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 2 / 49

3 Zobecněný lineární model Použití lineárního modelu je limitováno čtyřmi základními podmínkami (P1), (P2), (P3) a (P4) (P1) Střední hodnota E(ɛ i ) = 0, i = 1, 2,..., n, tj. náhodné chyby jsou nesystematické. (P2) Rozptyl D(ɛ i ) = σ 2, i = 1, 2,...,, tj. náhodné chyby jsou homogenní se stejným neznámým rozptylem σ 2. (P3) Náhodné chyby ɛ i jsou nezávislé. V případě, kdy je třeba provádět testy hypotéz o neznámých parametrech a konstruovat intervaly spolehlivosti pro neznámé parametry modelu, zavádí se v LRM další předpoklad: (P4) Náhodné chyby ɛ i mají normální rozdělení. Když v obecném lineárním modelu nahradíme tyto čtyři podmínky podmínkami obecnějšími, dospějeme k zobecněnému lineárnímu modelu. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 3 / 49

4 Zobecněný lineární model Pokud jde o podmínku (P1), zavedeme nejdříve funkci η = η(x 1, X 2,..., X k ) = β 1X 1 + β 2X β k X k. (1) Funkce η je lineární kombinací regresorů X 1, X 2,..., X k a koeficienty této lineární kombinace jsou neznámé parametry β 1, β 2,... β k. Dále ji budeme ji nazývat lineárním prediktorem. Pro lineární regresní model lze vyjádřit střední hodnotu µ odezvy Y pomocí funkce η identickým vztahem µ = E(Y ) = η = η(x 1,..., X k ) = β 1X 1 + β 2X β k X k. Tedy v lineárním regresním modelu predikujeme střední hodnotu µ náhodné veličiny Y pomocí vztahu µ = η. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 4 / 49

5 Zobecněný lineární model Když označíme η i hodnotu prediktoru η při hodnotách regresorů X 1 = x i1, X 2 = x i2,..., X k = x ik, lze pak lineární regresní model přepsat do tvaru µ i = η i = β 1x i1 + β 2x i2 + + β k x ik. Tedy střední hodnota i-tého pozorování odezvy Y je podle podmínky (P1) přímo rovna hodnotě lineárního prediktoru η i pro X 1 = x i1,..., X k = x ik. Podmínka (P1) se ve zobecněném lineárním modelu nahrazuje novou podmínkou, která nahrazuje identický vztah mezi střední hodnotou µ = E(Y ) a lineárním prediktorem η obecnějším vztahem. Předpokládá se, že µ a η jsou v obecném funkčním vztahu, který je určen tzv. linkovací funkcí g. Tedy podmínku (P1) z lineárního modelu lze přepsat jako novou podmínku zobecněného lineárního modelu tvaru: ZP1) η = g(µ), přičemž o funkci g se předpokládá, že je ryze monotónní a existuje funkce h, která je inverzní funkcí k funkci g. Na základě podmínky (ZP1) lze střední hodnotu µ odezvy Y zapsat jako funkci lineárního prediktoru η ve tvaru µ = h(η). V zobecněném lineárním modelu uvažujeme novou modelovou rovnici µ i = E(Y i ) = h(η i ) = h(β 1x i1 + β 2x i2 + + β k x ik ), i = 1..., n. (2) V tomto modelu už E(Y i ) obecně není lineární funkcí lineárního prediktoru η i, ale jedná se o speciální případ nelineárního modelu. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 5 / 49

6 Zobecněný lineární model Příklad Zavedení linkovací funkce lze dobře osvětlit na příkladu, kdy jednotlivá pozorování odezvy Y mají logarimicko-normální rozdělení. Pak transformovaná veličina ln Y má normální rozdělení a lze uvažovat model ln E(Y ) = ln µ = η = β 1X 1 + β 2X β k X k nebo naopak E(Y ) = µ = exp(η). V této situaci odpovídá linkovací funkce g logaritmické funkci a její inverzní funkce h odpovídá exponenciální funkci. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 6 / 49

7 Zobecněný lineární model Dále podmínky (P2) a (P3) lze pomocí jednotkové matice I přepsat do maticového tvaru var(y ) = σ 2 I a v zobecněném lineárním modelu pak takto maticově vyjádřené podmínky (P2) a (P3) nahrazujeme maticovou podmínkou: ZP2) var(y ) = a(φ)w, kde W je diagonální matice, její diagonální prvky mohou záviset na vektoru neznámých parametrů β. Dále varianční matice var(y ) může záviset na dalším parametru φ prostřednictvím funkce a(φ). Parametr φ v této souvislosti nazýváme rušivým parametrem, předpokládáme že rušivý parametr je nějakou konstantou, v testovaných hypotézách nevystupuje, ale pro popis modelu je potřebný. Srovnáním s podmínkou lineárního regresního modelu (P2) vidíme, že v lineárním modelu byl rušivým parametrem φ rozptyl σ 2, funkce a byla identická funkce, tedy a(σ 2 ) = σ 2 a matice W byla rovna jednotkové matici I. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 7 / 49

8 Zobecněný lineární model Konečně se ve zobecněném lineárním modelu podmínka (P4) zobecňuje a předpokládá se místo ní podmínka: ZP3) Rozdělení odezvy Y patří do exponenciální třídy rozdělení, přičemž exponenciální třída rozdělení je speciální skupina rozdělení, která zahrnuje celou řadu známých diskrétních i spojitých rozdělení. Patří do ní např. rozdělení binomické, Poissonovo, normální, exponenciální, gamma a další. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 8 / 49

9 Exponenciální třída rozdělení Exponenciální třída rozdělení Předpokládejme dále, že je dán systém hustot f (y; λ), kde y je proměnná a λ je neznámý parametr. Pro jednoduchost budeme předpokládat, že parametr λ je jednorozměrný reálný parametr. Dále budeme předpokládat, že daný systém hustot vyhovuje jistým podmínkám regularity, které zaručí korektnost dále prováděných matematických operací. Budeme říkat, že rozdělení pravděpodobnosti má hustotou f (y; λ) exponenciálního typu (stručněji, že rozdělení je exponenciálního typu), když existují funkce r(λ) a q(λ) parametru λ a funkce s(y) a t(y) reálné proměnné y tak, že jejich prostřednictvím lze hustotu f (y; λ) vyjádřit ve tvaru f (y; λ) = exp {t(y)q(λ) + r(λ) + s(y)}. (3) Pozn. Je třeba upozornit na rozdíl mezi hustotou exponenciálního typu a hustotou exponenciálního rozdělení. Jde o dva zcela odlišné pojmy. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 9 / 49

10 Exponenciální třída rozdělení Exponenciální třída rozdělení Příklad Poissonovo rozdělení Po(λ) Hustota Poissonova rozdělení (tj. jeho pravděpodobnostní funkce podle úmluvy uvedené výše) je tvaru f (y; λ) = e λ λ y Uvedenou hustotu lze snadno převést na tvar y! pro y {0, 1,... }, λ > 0 je parametr. f (y; λ) = exp{y ln λ λ + ln(y!)}. V uvedeném vztahu a rovněž v dalším textu funkce ln(x) značí přirozený logaritmus. Jestliže položíme t(y) = y, q(λ) = ln(λ), r(λ) = λ a s(y) = y!, pak je ihned zřejmé, že hustota f (y; λ) je tvaru (3) a je tedy exponenciálního typu. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 10 / 49

11 Exponenciální třída rozdělení Exponenciální třída rozdělení Příklad Exponenciální rozdělení Ex(λ) Hustota exponenciálního rozdělení je tvaru f (y; λ) = λe λy pro y > 0, λ > 0 je parametr. Snadno nahlédneme, že při volbě t(y) = y, q(λ) = λ, r(λ) = ln(λ) a s(y) = 0 dostaneme f (y; λ) = e λy+ln(λ) = e t(y)q(λ)+r(λ)+s(y), takže je zřejmé, že hustota exponenciálního rozdělení je exponenciálního typu. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 11 / 49

12 Exponenciální třída rozdělení Exponenciální třída rozdělení V obou uvedených příkladech je t(y) = y. Tato skutečnost motivuje zavedení následující terminologie. Říkáme, že hustota exponenciálního typu je v kanonickém tvaru, když ve vztahu (3) platí, že t(y) = y. Dále lze v hustotě exponenciálního typu (3), která je v kanonickém tvaru, provést reparametrizaci a zavést nový parametr θ vztahem θ = q(λ). Tento nový parametr θ pak nazýváme kanonickým parametrem. V případě Poissonova rozdělení Po(λ) je kanonickým parametrem parametr θ = ln(λ) a v případě exponenciálního rozdělení Ex(λ) je kanonickým parametrem parametr θ = λ. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 12 / 49

13 Exponenciální třída rozdělení Exponenciální třída rozdělení V některých situacích s hustotou exponenciálního typu tvaru (3) nevystačíme. Často se v praxi stává, že pravděpodobnostní rozdělení, s nimiž pracujeme, obsahují rušivý parametr φ. Ten sice není bezprostředně středem našeho zájmu, ale jak již bylo zmíněno následně po zavedení podmínky (ZP2) v definici zobecněného lineárního modelu, je třeba věnovat mu pozornost i přes to, že testované hypotézy na něm nezávisí. Roli rušivého parametru lze demonstrovat na jednoduchém případě s normálním rozdělením N(µ, σ 2 ), kdy je třeba testovat hypotézu o jeho střední hodnotě µ při neznámém rozptylu σ 2. Pak tento rozptyl σ 2 vstupuje do rozhodovacího procesu, ale v nulové hypotéze, která se týká se pouze parametru µ, se neobjevuje. V popsané situaci je tedy rušivým parametrem φ parametr σ 2. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 13 / 49

14 Exponenciální třída rozdělení Exponenciální třída rozdělení V dalších úvahách budeme i nadále rušivý parametr označovat písmenem φ a budeme uvažovat rozdělení s hustotou exponenciálního typu v kanonickém tvaru s parametrem θ, s rušivým parametrem φ a s hustotu f (y; θ, φ) tvaru { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), (4) a(φ) kde b(θ), a(φ) a c(y, φ) jsou dané funkce svých argumentů. Snadno lze najít jejich vyjádření pomocí funkcí t(y), q(λ), r(λ) a s(y) použitých v definičním vztahu (3). Porovnáním (3) a (4) zjistíme, že v (3) je a(φ) = 1 a dále platí θ = q(λ), b(θ) = b(q(λ)) = = r(λ), c(y, φ) = s(y). V tomto vztahu budeme parametr θ opět nazývat kanonickým parametrem. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 14 / 49

15 Exponenciální třída rozdělení Exponenciální třída rozdělení Příklad Normální rozdělení N(µ, σ 2 ) Hustota normálního rozdělení N(µ, σ 2 ) má tvar f (y; µ, σ 2 ) = 1 { exp 1 } (y µ) 2 = exp { y 2 2πσ 2 σ 2 2σ + yµ 2 σ µ2 2 2σ 1 } 2 2 ln(2πσ2 ). Když v tomto posledním vztahu položíme φ = σ 2, a(φ) = φ, c(y, φ) = 1 ( y 2 + ln(2πφ)) 2 φ a b(µ) = µ2, vidíme, že uvedená hustota f (y; µ, 2 σ2 ) patří do exponenciální třídy, je v kanonickém tvaru (4), θ = µ je kanonický parametr a φ = σ 2 je rušivý parametr. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 15 / 49

16 Výpočet charakteristik pro rozdělení exponenciálního typu Výpočet charakteristik pro rozdělení exponenciálního typu Nejdříve zavedeme funkci l parametru λ vztahem l(λ; y) = ln(f (y; λ)) a nazveme ji logaritmickou věrohodnostní funkcí. Dále zavedeme náhodnou veličinu U(λ) = l(λ; Y ) λ a nazveme ji skórem. Rozptyl skóru D(U(λ)) zřejmě závisí na parametru λ a nazývá se Fisherovou mírou informace o parametru λ, která je obsažena v rozdělení náhodné veličiny Y. Budeme ji značit J(λ). Protože integrál z libovolné hustoty (nebo součet všech hodnot pravděpodobnostní funkce) je roven jedné, snadno nahlédneme, že platí E(U(λ)) = 0 a pomocí tohoto vztahu odvodíme, že pro druhou derivaci logaritmické věrohodnostní funkce platí ( ) ( ) 2 2 l(λ; Y ) l(λ) E = E = E(U 2 (λ)) = D(U(λ)) = J(λ). λ 2 λ Fisherovu míru informace o parametru λ dostáváme ve tvaru ( ) 2 l(λ; Y ) J(λ) = E. (5) λ 2 Vztah (5) se někdy užívá pro definici Fisherovy míry informace o parametru λ. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 16 / 49

17 Výpočet charakteristik pro rozdělení exponenciálního typu Výpočet charakteristik pro rozdělení exponenciálního typu Je-li hustota f exponenciálního typu tvaru (3), pak logaritmickou věrohodnostní funkci lze zapsat ve tvaru l(λ; y) = t(y)q(λ) + r(λ) + s(y) a pro její derivace (derivaci značíme čárkou u příslušné funkce) dostaneme a U(λ) = l(λ; Y ) λ = t(y )q (λ) + r (λ) U (λ) = 2 l(λ; Y ) = t(y )q (λ) + r (λ). λ 2 Odtud, protože E(U(λ)) = 0, lze vyjádřit střední hodnotu a rozptyl statistiky t(y) ve tvaru E(t(Y )) = r (λ) q (λ), (6) a D(t(Y )) = 1 [q (λ)] 3 [ q (λ)r (λ) q (λ)r (λ) ]. (7) Vztahy (6) a (7) dávají návod, jak snadno nalézt střední hodnotu a rozptyl rozdělení, která mají hustotu exponenciálního typu tvaru (3). J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 17 / 49

18 Výpočet charakteristik pro rozdělení exponenciálního typu Výpočet charakteristik pro rozdělení exponenciálního typu Je-li hustota f (y; θ) v kanonickém tvaru (4), lze srovnáním s hustotou (3) získat λ = θ, t(y) = y, q(θ) = θ b(θ), r(θ) =, s(y) = c(y, φ) a ze vzorců (6) a (7) plyne, a(φ) a(φ) že µ = E(Y ) = b (θ) (8) a D(Y ) = b (θ)a(φ). (9) Ze vzorce (9) plyne, že rozptyl D(Y ) je součinem dvou funkcí. První činitel b (θ) je funkcí kanonického parametru θ, a když existuje inverzní funkce b 1 k funkci b, plyne ze (8), že θ = b 1(µ). Když položíme V (µ) = b (b 1 (µ)), lze rozptyl ve (9) zapsat ve tvaru součinu D(Y ) = V (µ)a(φ), kde první činitel V (µ) závisí pouze na µ a druhý a(φ) závisí pouze na rušivém parametru φ. Dostaneme tedy, že pro rozdělení s hustotou exponenciálního typu v kanonickém tvaru (4) platí E(Y ) = µ = b (θ) a D(Y ) = V (µ)a(φ). (10) Z uvedeného vztahu je dobře patrné, že rozptyl uvažovaného rozdělení při dané hodnotě rušivého parametru závisí pouze na střední hodnotě a tato závislost je popsána funkcí V (µ). Proto funkci V (µ) budeme dále nazývat variační funkcí. Variační funkce má v teorii zobecněných lineárních modelů důležité místo. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 18 / 49

19 Volba linkovací funkce Volba linkovací funkce Budeme se zabývat otázkou, jak vhodně zvolit linkovací funkci g zavedenou v definici zobecněného lineárního modelu v podmínce (ZP1). Je-li hustota, s níž pracujeme, v kanonickém tvaru (4), můžeme jednoduše zavést tzv. kanonickou linkovací funkci g. Položme η = θ = θ(µ), (11) a odtud užitím podmínky (ZP1) dostaneme, že linkovací funkce g je dána vztahem g(µ) = θ(µ). Srovnáním (8) s podmínkou (ZP1) vidíme, že pro tuto linkovací funkci platí g(µ) = b 1(µ). (12) Funkci g zavedenou vztahem (11) pak nazýváme kanonickou linkovací funkcí. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 19 / 49

20 Volba linkovací funkce Volba linkovací funkce Při aplikacích zobecněných lineárních modelů se často pracuje s rozdělením normálním, binomickým, Poissonovým a gamma. Všechna tato rozdělení jsou exponenciálního typu a lze ji zapsat v kanonickém tvaru (4). V následujícím přehledu jsou pro tato rozdělení uvedeny funkce b, a a c, dále střední hodnota µ, kanonická linkovací funkce g a varianční funkce V (µ). Normální rozdělení N(µ, σ 2 ) Hustota: f (y; µ, σ 2 ) = 1 2πσ exp { } 1 (y µ) 2 2 σ 2 Obor hodnot: (, ) Kanonický parametr: θ = µ Rušivý parametr: φ = σ 2 Parametry: µ (, ), σ > 0 Funkce: b(θ) = µ2 2, a(φ) = φ, c(y, φ) = 1 2 ( y 2 φ + ln(2πφ)) Střední hodnota: µ = µ(θ) = E(Y ; θ))= θ Kanonická linkovací funkce: g(µ) = µ Variační funkce: V (µ) = 1 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 20 / 49

21 Volba linkovací funkce Volba linkovací funkce Rozdělení relativní četnosti tj. binomické rozdělení Bi(m, π)/m Hustota: f (y; m, π) = ( m my) π my (1 π) m my, Parametry: m {1, 2,... }, π (0, 1) Obor hodnot: { 0, 1, 2,..., m 1, 1} m m m π 1 π Kanonický parametr: θ = ln Rušivý parametr: φ = 1 m Funkce: b(θ) = ln(1 + e θ ), a(φ) = φ, c(y, φ) = ln ( ) m my Střední hodnota: µ = µ(θ) = E(Y ; θ)) = eθ 1+e θ Kanonická linkovací funkce: logitová: g(µ) = ln( µ Variační funkce: V (µ) = µ(1 µ) 1 µ ) Poissonovo rozdělení Po(λ) λ λy Hustota: f (y; λ) = e Parametr: λ > 0 y! Obor hodnot: {0, 1, 2,... } Kanonický parametr: θ = ln(λ) Rušivý parametr: φ = 1 Funkce: b(θ) = e θ, a(φ) = 1 c(y, φ) = ln(y!) Střední hodnota: µ = µ(θ) = E(Y ; θ)) = e θ Kanonická linkovací funkce: g(µ) = ln(µ) Variační funkce: V (µ) = µ J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 21 / 49

22 Volba linkovací funkce Volba linkovací funkce Rozdělení gamma G(α, ν) Hustota: f (y; α, ν) = 1 ( ν Γ(ν) α )ν e α ν y y ν 1 Parametry: α > 0, ν > 0 Obor hodnot: (0, ) Kanonický parametr: θ = 1 Rušivý parametr: φ = ν 1 α Funkce: b(θ) = ln( θ), a(φ) = φ, c(y, φ) = ν ln(νy) ln(y) ln(γ(ν)) Střední hodnota: µ = µ(θ) = E(y; θ)) = 1 θ Kanonická linkovací funkce: g(µ) = 1 µ Variační funkce: V (µ) = µ 2 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 22 / 49

23 Volba linkovací funkce Volba linkovací funkce V řadě experimentálních situací, zejména při výběrech malého rozsahu, se upřednostňuje kvalitní proložení modelové funkce daty před optimálními statistickými vlastnostmi modelu. V této situaci se potom využívají nejen kanonické linkovací funkce, ale i linkovací funkce jiného typu, které vedou k dobrým proložením. a) Probitová linkovací funkce η = Φ 1(µ), kde Φ 1 je inverzní funkce k distribuční funkci standardizovaného normálního rozdělení. Tato linkovací funkce se používá v probitové analýze. b) Komplementární log-log linkovací funkce η = ln( ln(1 µ)). Komplementární log-log funkci lze získat jako inverzní funkci k distribuční funkci rozdělení extrémního typu, Gumbelova rozdělení. c) Mocninná linkovací funkce nebo η = µ κ pro κ > 0 a η = ln µ pro κ 0 η = µκ 1 pro κ > 0 a η = ln µ pro κ 0. κ V obou těchto transformacích je potřeba nejdříve provést odhad parametru κ. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 23 / 49

24 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti Předpokládejme, že je dáno n nezávislých náhodných veličin Y 1,..., Y n, které se řídí zobecněným lineárním modelem s linkovací funkcí g a s hustotou exponenciálního typu v kanonickém tvaru (4). Hustota veličiny Y i závisí na parametru θ i i = 1,..., n. Předpokládejme, že rušivý parametr φ je známý pro všechna pozorování Y 1,..., Y n. Pro střední hodnotu Y i dostaneme Pomocí linkovací funkce g lze lineární prediktor vyjádřit jako funkci střední hodnoty µ i ve tvaru µ i = E(Y i ) = b (θ i ), i = 1,..., n. (13) η i = β 1x i1 + + β k x ik (14) η i = g(µ i ), i = 1,..., n. (15) Uvedené vztahy využijeme při odvozování věrohodnostních rovnic pro výpočet odhadů neznámých parametrů β 1,..., β k. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 24 / 49

25 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti Označíme-li l i = ln f (y i ; θ i, φ) logaritmickou věrohodnostní funkci náhodné veličiny Y i, dostaneme logaritmickou věrohodnostní funkci náhodného vektoru Y = (Y 1,..., Y n) ve tvaru n n n L(β) = ln f (y i ; θ i, φ) = ln f (y i ; θ i, φ) = l i (θ i, φ; y i ). i=1 i=1 Označení L(β) je použito proto, aby bylo zdůrazněno, že parametry θ i závisí na parametrech β 1,..., β k, jak je patrno ze vztahů (13), (14) a (15). Maximálně věrohodné odhady neznámých parametrů β 1,..., β k nalezneme maximalizací logaritmické věrohodnostní funkce L(β). Vyjdeme z věrohodnostních rovnic L β j = 0; j = 1,..., k. Nejdříve zavedeme skórový vektor U = U(β) vzhledem k vektorovému parametru β vztahem ( L U(β) =,..., L ). β 1 β k a věrohodnostní rovnice přepíšeme do maticového tvaru i=1 U(β) = 0. (16) J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 25 / 49

26 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti Pro j-tou rovnici potom dostaneme U j (β) = L β j = n i=1 l i β j = 0, j = 1,..., k. (17) Po výpočtu derivací uvedených v (17) a po jejich dosazení do (16) lze přepsat věrohodnostní rovnice (16) do tvaru n i=1 y i µ i D(Y i ) x µ i ij = 0, j = 1,..., k. (18) η i Dále pomocí inverzní funkce h = g 1 k linkovací funkci g lze získat vyjádření věrohodnostních rovnic (18) ve tvaru n i=1 y i µ i D(Y i ) h (η i )x ij = n i=1 y i b (η i ) h (η i )x ij = 0, j = 1,..., k. (19) D(Y i ) J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 26 / 49

27 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti Vzhledem k tomu, že linkovací funkce η i = g(µ i ) je obecně nelineární funkcí a střední hodnoty µ i i rozptyl D(Y i ) závisí na parametrech β 1,..., β k obecně nelineárně, jsou rovnice maximální věrohodnosti (19) obecně nelineární rovnice pro parametry β 1,..., β k. Snadno lze nahlédnout, že rovnici (19) lze zapsat v maticovém tvaru. Když označíme µ = (µ 1,..., µ n), zavedeme diagonální matici V = diag{d(y 1),..., D(Y n)} a položíme kde ( ) µi F = β j i = 1,..., n j = 1,..., k = a D h = diag(h (η 1),..., h (η n)). ( ) µi x ij η i X = i = 1,..., n j = 1,..., k = x 11 x 1k.. x n1 x nk, ( ) x ij h (η i ) i = 1,..., n j = 1,..., k = D h X, J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 27 / 49

28 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti Pak věrohodnostní rovnice (19) mají tvar F V 1 (Y µ) = X D h V 1 (Y µ) = 0. (20) Při kanonické volbě linkovací funkce platí, že D h = 1 V a věrohodnostní rovnice (19) se a(φ) redukují na jednoduchý tvar X (Y µ) = 0. Jejich řešení se provádí iteračními technikami. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 28 / 49

29 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti příklad Uvažujme data z tabulky s odezvou Y a jedním regresorem x. x y Obrázek: Poissonovská regrese J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 29 / 49

30 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti příklad S rostoucí střední hodnotou odezvy roste její variabilita (viz obrázek), a proto budeme data modelovat pomocí poissonovské regrese. Připomeňme, že rozptyl a střední hodnota Poissonova rozdělení jsou stejné a rovny jeho parametru λ. Vzhledem k tomu, že obrázku je patrná lineární vazba odezvy Y na regresoru x, vyjdeme z modelu E(Y i ) = µ i = λ i = β 1 + β 2x i. Cílem je odhadnout neznámé parametry β 1 a β 2. Využijeme k tomu rovnice (20). Zřejmě je k = 2 dále n = 9 a matice x 11 x 12 1 x 1 X =.. =... x 91 x 92, 1 x 9, J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 30 / 49

31 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti příklad Dále matice a V = diag{d(y 1),..., D(Y 9)} = diag{β 1 + β 2x 1,..., β 1 + β 2x 9} D h = diag(h (η 1),..., h (η 9)) = I, tedy D h je jednotková matice, protože linkovací funkce je identita, h(x) = x a h (x) = 1. Můžeme sestavit rovnice (20), to je systém nelineární rovnic pro neznámé parametry β 1, β 2 a pro jeho řešení je nutné použít nějakou metodu numerické matematiky. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 31 / 49

32 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti příklad Obrázek: Poissonovská regrese odhady parametrů získané metodou Fisher Scoring po 3 iteracích jsou ˆβ 1 = 7,4516 a ˆβ 2 = 4,9353 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 32 / 49

33 ML odhad parametrů zobecněného lineárního modelu Odhad parametrů zobecněného lineárního modelu metodou maximální věrohodnosti Ukážeme speciální případ věrohodnostních rovnic pro situaci, kdy odezvy Y i mají normální rozdělení N(µ i, σ 2 ). Použijeme-li kanonickou linkovací funkci µ i = η i = β 1x i1 + + β k x ik, pak µ i η i = 1 a dosazením do věrohodnostních rovnic (18) ihned dostaneme n i=1 y i µ i σ 2 x ij = 0, j = 1,..., k. Vynásobíme-li tuto rovnici rušivým parametrem σ 2, abychom jej eliminovali, dostaneme rovnici ( ) n k y i β sx is x ij = 0, j = 1,..., k. i=1 s=1 Její maticový tvar je X X β = X Y. Je tedy zřejmé, že systém věrohodnostních rovnic (16) v tomto speciálním případě přechází v systém normálních rovnic, které se používají v lineárním regresním modelu k odhadu parametru β metodou nejmenších čtverců. Na uvedeném příkladu je také názorně vidět, že věrohodnostní rovnice (18) lze považovat za zobecnění normálních rovnic při přechodu od klasického lineárního regresního modelu ke zobecněnému lineárnímu modelu. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 33 / 49

34 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech Statistická inference o parametrech β 1,..., β k, z níž se při analýze zpracovávaného datového souboru vychází, je založena na vlastnostech odhadů získaných metodou maximální věrohodnosti. ro statistickou analýzu je důležitý výsledek, že v případě, kdy rovnice věrohodnosti mají řešení β, které je konzistentním odhadem parametru β, má náhodný vektor n( β β) asymptoticky normální rozdělení N k (0, J(β) 1 ), kde ( ) 2 l(β; Y ) J(β) = E β i β j i = 1,..., k j = 1,..., k. (21) je Fisherova informační matice (zobecnění Fisherovy informační míry na vektorový parametr) a používá se k výpočtu asymptotické varianční matice odhadovaných parametrů. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 34 / 49

35 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech V praktických situacích se tedy vychází z předpokladů asymptotické normality odhadů β a neznámý parametr β se ve varianční matici J(β) 1 nahrazuje jeho maximálně věrohodným odhadem. Z uvedených výsledků pak plyne, že statistika W = ( β β) J( β)( β β) má asymptoticky χ 2 rozdělení o k stupních volnosti. Statistika W se nazývá Waldova statistika. Lze ji použít k testování nulové hypotézy β = β 0 alternativou je, že nulová hypotéza neplatí, β 0 je daný vektor. Pomocí Taylorovy aproximace věrohodnostní funkce L(β; Y ) v bodě β = β lze ukázat, že statistika D = 2(L( β) L(β)) je asymptoticky ekvivalentní se statistikou W a má tedy také asymptoticky χ 2 rozdělení o k stupních volnosti, když β je skutečná hodnota tohoto parametru. Tato statistika se nazývá deviance, používá pro testování adekvátnosti modelu, lze ji stejně jako Waldovu statistiku použít pro testování nulové hypotézy β = β 0, respektive pro testování vhodnosti redukovaného modelu. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 35 / 49

36 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech Pro testování nulové hypotézy, že zvolený model dobře vysvětluje data, se používá srovnání zvoleného modelu s modelem maximálním, který se též nazývá saturovaným modelem. Uvažujme daný, pevně zvolený zobecněný lineární model s pevně danou linkovací funkcí g a s pevně daným rozdělením odezvy, které je exponenciálního typu. Pak saturovaným modelem příslušným k danému uvažovanému modelu je zobecněný lineární model, který má stejnou linkovací funkci a stejné rozdělení odezvy jako uvažovaný model a vektor jeho parametrů β max má n složek. Pro saturovaný model zřejmě platí, že odhad střední hodnoty µ i je roven Y i tedy µ i = Y i, i = 1,..., n, a to znamená, že saturovaný model úplně vysvětluje data. Statistika D = 2(L( β max) L(β max)) má asymptoticky χ 2 rozdělení o n stupních volnosti. Jestliže platí nulová hypotéza, že model s k-rozměrným parametrem β vysvětluje data stejně dobře jako model saturovaný, platí L(β max) L(β). = 0. Označíme β max odhad β max v saturovaném modelu a podobně β odhad β v uvažovaném modelu. Můžeme zavést statistiku D = 2[L( β max) L(β max)) (L( β) L(β)) + (L(β max) L(β)]. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 36 / 49

37 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech Protože první člen na pravé straně uvedeného výrazu má asymptotické rozdělení χ 2 (n), druhý má asymptotické rozdělení χ 2 (k) a třetí je za platnosti nulové hypotézy přibližně roven nule, lze ukázat, že za platnosti nulové hypotézy má statistika D = 2(L( β max) L( β)) asymptoticky rozdělení χ 2 (n k). Statistika D je vhodnou testovací statistikou pro ověření nulové hypotézy, že uvažovaný model popisuje data stejně dobře jako saturovaný model a také se nazývá deviancí. V některých situacích (např. ve výstupní sestavě programového systému R) se pro devianci D používá název reziduální deviance J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 37 / 49

38 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech Konečně v řadě statistických analýz bývá často potřeba testovat hypotézu, že daný model s k parametry lze redukovat na submodel s menším počtem q parametrů. Označíme-li v této situaci D k devianci pro model s k parametry a D q devianci pro model s q parametry, lze ukázat, že rozdíl D = D q D k má asymptoticky rozdělení χ 2 s k q stupni volnosti. Odtud plyne, že nulovou hypotézu, že model s k parametry lze redukovat na model s q parametry, zamítneme na hladině významnosti α, když D > χ 2 1 α(k q). V situaci, kdy redukovaný model obsahuje pouze jeden parametr, tedy q = 1 (např. když lineární prediktor η = β 1), nazývá se deviance D q ve výstupních programech systému R nulovou deviancí. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 38 / 49

39 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech V případech, kdy je potřeba posoudit shodu modelu s daty a eliminovat vliv počtu parametrů uvažovaných modelů, lze pro srovnání využít statistiku AIC (z anglického Akaike information criterion), která je založena na logaritmické věrohodnostní funkci a je definována vztahem AIC = 2L( β) + 2k, (22) kde k je počet odhadovaných parametrů modelu. Statistika AIC je součástí výstupní sestavy programů ve výpočetním prostředí R v modulech, které umožňují provádět vyhodnocení zobecněných lineárních modelů. Ještě poznamenejme, že jiná míra pro testování shody modelu s daty je Pearsonova statistika n χ 2 (Y i µ i ) 2 =, V ( µ i ) i=1 která má asymptoticky rozdělení χ 2 (n k). J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 39 / 49

40 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech Uvedené výsledky vycházely z předpokladu, že rušivý parametr je známý. Pokud bychom předpokládali, že rušivý parametr není známý, je možné jej odhadnout metodou maximální věrohodnosti a příslušné testy modifikovat. K jednoduchému odhadu funkce rušivého parametru a(φ) dospějeme využitím Pearsonovy statistiky, která má v situaci, kdy uvažujeme rušivý parametr, asymptoticky rozdělení a(φ)χ 2 (n k). Tedy χ 2 /a(φ) má rozdělení χ 2. Protože E(χ 2 ) = n k, lze statistiky χ 2 použít k odhadu rušivého parametru. Výsledkem je odhad a(φ) tvaru â(φ) = χ2 n k = 1 n k n (Y i µ i ) 2 /V ( µ i ). i=1 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 40 / 49

41 Statistická inference v zobecněných lineárních modelech Statistická inference v zobecněných lineárních modelech V případě, kdy je potřeba testovat hypotézu, že daný model s k parametry lze redukovat na submodel s menším počtem q parametrů lze ukázat, že rozdíl D = D q D k má asymptoticky rozdělení aχ 2 s k q stupni volnosti. Odtud plyne, že nulovou hypotézu, že model s k parametry lze redukovat na model s q parametry, zamítneme na hladině významnosti α, když 1 a D > χ2 1 α(k q). V některých situacích je jednodušší využít pro test této nulové hypotézy statistiku F = Dq D k D k n k k q, která má asymptoticky Fisher-Snedecorovo F rozdělení o k q a n k stupních volnosti. Tím se eliminuje vliv rušivého parametru. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 41 / 49

42 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model Budeme předpokládat, že Y 1,..., Y n jsou nezávislé náhodné veličiny, y 1,..., y n jejich realizace a dále předpokládáme, že Y i má binomické rozdělení Bi(n i, π i ), přičemž µ i = E(Y i ) = n i π i = n i h(η i ) = n i h(β 1x i1 + + β k x ik ), i = 1,..., n, (23) kde h odpovídá volbě linkovací funkce g. Pak logaritmická věrohodnostní funkce je tvaru [ ( )] n n i L(β) = y i ln π i y i ln(1 π i ) + n i ln(1 π i ) + ln. y i i=1 V saturovaném modelu je y i odhadem µ i a tedy odhadem π i je v saturovaném modelu relativní četnost y i n i. Dále v uvažovaném modelu (23) lze parametry π i odhadnout metodou maximální věrohodnosti (řešením rovnice (19) při vhodně zvolené linkovací funkci). Když položíme ŷ i = n i π i, kde π i = h( η i ) = n i h( β 1x i1 + + β k x ik ) jsou maximálně věrohodné odhady parametrů π i v modelu (23), můžeme pomocí logaritmické věrohodnostní funkce L(β) zapsat devianci D ve tvaru D = 2[L( β max) L( β)] = 2 n i=1 [ y i ln ( yi ŷ i ) + (n i y i ) ln ( ni y i n i ŷ i )]. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 42 / 49

43 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model Pro kanonickou linkovací funkci dostaneme logistický regresní model ( ) πi ln = η i = β 1x i1 + + β k x ik 1 π i nebo ekvivalentně π i = exp{β1x i1 + + β k x ik } 1 + exp{β 1x i1 + + β k x ik }. Dále pro probitovou linkovací funkci dostaneme probitový model nebo ekvivalentně Φ 1(π i ) = η i = β 1x i1 + + β k x ik π i = Φ(β 1x i1 + + β k x ik ), kde Φ je distribuční funkce standardizovaného normálního rozdělení N(0, 1). Použijeme log-log linkovací funkci, dostaneme model extrémního typu π i = 1 exp[ exp(β 1x i1 + + β k x ik )]. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 43 / 49

44 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model příklad V rámci marketingového průzkumu byl zjišťován počet zájemců o koupi nového vozu. Průzkum byl proveden u 481 domácností, v každé byl zjišťován měsíční příjem domácnosti na jednoho člena domácnosti, značíme jej X a dále byla zjišťována odpověď na otázku, zda mají členové domácnosti v tříletém horizontu zájem o koupi nového vozu. Cílem bylo modelovat počet zájemců (domácností) o koupi nového vozu v závislosti na příjmu X. Příslušná data jsou uvedena v tabulce. V prvním sloupci tabulky je uveden zaokrouhlený příjem na tisíce Kč. Dále ve druhém sloupci tabulky je uveden počet domácností s daným zaokrouhleným příjmem a ve třetím sloupci tabulky je uveden počet domácností, které projevily o koupi nového vozu ve tříletém horizontu zájem. Příjem x i [v tisících Kč] Počet domácností n i Počet zájemců y i Tabulka: Zaokrouhlený příjem na jednoho člena domácnosti x i, celkové počty domácností n i odpovídající příjmové skupině x i a odpovídající počty domácností se zájmem o koupi nového vozu J. Neubauer, y. Dále J. Michálek jsou uvedeny (Katedra ekonometrie odhadyuo) počtu zájemců Zobecněný o koupi lineární model nového vozu ŷ získané pomocí logitového, 44 / 49

45 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model příklad Počet zájemců byl modelován pomocí zobecněného lineárního modelu s logitovou, probitovou a komplementární log-log linkovací funkcí v závislosti na zaokrouhleném měsíčním příjmu, který připadá na jednoho člena domácnosti (proměnná x). Pro predikci pravděpodobnosti π(x), že při daném příjmu x bude mít domácnost o koupi nového vozu zájem byl použit lineární prediktor η = β 1 + β 2x. Logistický model byl tvaru Probitový model byl tvaru π(x) = a model extrémního typu byl tvaru exp{β1 + β2x} 1 + exp{β 1 + β. 2x} π(x) = Φ(β 1 + β 2x), π i = 1 exp[ exp(β 1x i1 + β 2x i2 )]. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 45 / 49

46 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model příklad Odhadovaná Logit model Probit model Model extrémního typu veličina Odhad Odhad Odhad β 1 18,23*** 10,49*** 11,89*** Sm.odchylka β 1 1,582 0,816 1,002 β 2 0,98*** 0,56*** 0,61*** Sm. odchylka β 2 0,084 0,043 0,051 D(rezid. deviance) 7,56 (6 st. v.) 6,48 (6 st. v.) 3,72 (6 st. v.) Nulová deviance 284,20 (7 st. v.) 284,20 (7 st. v.) 284,20 (7 st. v.) AIC 37,76 36,68 33,924 Tabulka: Výsledky statistických vyhodnocení. Odhady parametrů, jejich směrodatné chyby, nulová a reziduální deviance, AIC kritérium. *** u hodnoty parametru značí jeho statistickou významnost na hladině významnosti nižší než 0,001. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 46 / 49

47 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model příklad V daném příkladě je počet hodnot zaokrouhlených příjmů n = 8 a počet odhadovaných parametrů je k = 2. V případě, že uvedený model dobře postihuje statistickou vazbu pravděpodobnosti π(x) na příjmu x, má deviance D přibližně rozdělení χ 2 (6) (stupně volnosti jsou uvedeny v závorce u příslušné hodnoty vypočtené statistiky). Protože 95% kvantil rozdělení χ 2 (6) je 12,59, žádný z uvedených modelů nelze zamítnout. Nejmenší reziduální devianci vykazuje model extrémního typu. Rovněž oba parametry β 1 a β 2 jsou v každém uvažovaném modelu statisticky vysoce významné, *** u jejich hodnoty značí statistickou významnost na hladině významnosti nižší než 0,001. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 47 / 49

48 Statistická inference v zobecněných lineárních modelech Statistické inference pro binomický model příklad Obrázek: Odhady pravděpodobnosti π(x), že domácnost uvažuje o koupi nového vozu v závislosti na příjmu x získané pro logistický model (červeně), probitový model (modře) a model extrémního typu (zeleně). J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 48 / 49

49 Statistická inference v zobecněných lineárních modelech Použité zdroje AGRESTI, A., Categorical Data Analysis. John Wiley & Sons. ANDĚL, J., Matematická statistika. Praha: SNTL. ANDĚL, J., Statistické metody. Praha: Matfyzpress. ANDĚL, J., Základy matematické statistiky. 1. vyd. Praha: Matfyzpress. DOBSON, A., An Introduction to Generalized Linear Models. London: Chapman & Hall. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární model 49 / 49