ODVOZENÍ OBLASTI NECITLIVOSTI PRO PARAMETRY STŘEDNÍ HODNOTY REGULÁRNÍHO SMÍŠENÉHO LINEÁRNÍHO REGRESNÍHO MODELU BEZ PODMÍNEK Hana Boháčová Univezita Padubice, Fakulta ekonomicko-spávní, Ústav matematiky Abstact: The aim of this pape is to find an explicit fom of an insensitivity egion fo a linea function of the fixed effects paametes in a egula mixed linea egession model without constaints, to exploe a possible gaphical epesentation of this egion and its significance fo the detemination of the estimates in the mentioned model. Keywods: Insensitivity egion, mixed linea egession model, fixed effects paametes, maximum likelihood estimato of fixed effect paametes, vaiance components.. Použité značení I jednotková matice A + Mooe-Penoseova pseudoinveze matice A viz [7]) M A matice otogonální pojekce na vektoový posto kolmý k vektoovému postou geneovanému sloupci matice A, M A = I-AA + ) A) hodnost matice A ta) stopa matice A, definuje se po čtvecové matice jako součet diagonálních pvků Y ~ N n Xβ, Σ) náhodný vekto Y má n-ozměné nomální ozdělení se střední hodnotou Xβ a vaianční maticí Σ Va [ βˆ )] vaianční matice odhadu βˆ ) za předpokladu, že skutečná hodnota paametu je i-tá složka vektou i. Úvod Jednou z často používaných metod učování bodových odhadů paametů je metoda maximální věohodnosti. Hlavní předností této metody jsou její asymptotické vlastnosti. Maximálně věohodný odhad paametů střední hodnoty ve smíšeném lineáním egesním modelu, kteý bude blíže popsán v následujícím odstavci, je funkcí paametů vaianční matice v dalším textu označovaných jako vaianční komponenty). K učení odhadu je tedy nejpve třeba vhodně zvolit vstupní hodnoty vaiančních komponent. Otázkou je, jak poznáme, zda daná volba těchto vstupních hodnot byla dobá a zda vůbec data, kteá máme k dispozici umožňují učení kvalitních odhadů paametů střední hodnoty. 3. Maximálně věohodné odhady paametů střední hodnoty a vaiančních komponent ve smíšeném lineáním egesním modelu Uvažujme smíšený lineání egesní model Y ~ N n Xβ, Σ ). ) Data, kteá máme k dispozici, jsou obsažena v obsevačním vektou Y, neznámé paamety tvoří vekto β. Dále předpokládáme, že složky vektou Y jsou v případě, že data jsou přesná tedy nedošlo k žádné chybě při jejich získávání), lineáními funkcemi vektou paametů β, 7
což je v modelu ) vyjádřeno tím, že střední hodnota vektou Y je Xβ. V paxi většinou k tomuto modelu dospějeme pomocí lineaizace. Nechť matice X je plné hodnosti ve sloupcích, X) = k. Uvažujme model s vaiančními komponentami,...,, tedy vaianční matice vektou Y je tvau Va Y = Σ = i V i, ) kde V,, V jsou známé symetické matice, přičemž musí platit, že vaianční matice Σ je pozitivně definitní. Existence více vaiančních komponent v eálných situacích znamená, že data pocházejí z několika ůzně přesných zdojů, například byla měřena několika ůznými přístoji, matice V i pak obvykle bývají diagonální. Naším cílem je najít odhady paametů střední hodnoty β a vaiančních komponent,..., metodou maximální věohodnosti. Po usnadnění zápisu budeme v dalším symbolem značit vekto, jehož složkami jsou vaianční komponenty. V modelu ) jsou věohodnostní ovnice po β a například podle [7]) tvau i= [X Σ ) - X]β=X Σ ) - Y, 3) t[σ ) - V i ]=Y M X Σ M X ) + V i M X Σ M X ) + Y, i =,...,. 4) Vzhledem k předpokladu pozitivní definitnosti matice Σ je tato vaianční matice i egulání. Potože navíc předpokládáme plnou sloupcovou hodnost matice X, je egulání i matice X Σ ) - X a existuje k ní tedy matice invezní. Poto z ovnice 3) můžeme přímo vyjádřit odhad paametu β ve tvau βˆ = [X Σ ) - X] - X Σ ) - Y 5) Explicitní vyjádření odhadu paametu, kteé vznikne úpavou soustavy ovnic 4), je uvedeno v []. Ze vztahu 5) je vidět, že odhad paametu β je funkcí poměnné, jak bylo zmíněno v úvodu. Potřebujeme poto stanovit nějakou vhodnou vstupní hodnotu vaiančních komponent, kteou budeme značit. Záoveň potřebujeme umět posoudit, jestli daná volba vstupních vaiančních komponent umožňuje získání použitelného odhadu paametů střední hodnoty. To nám umožní pávě oblast necitlivosti, jejímž odvozením se budeme zabývat v následujícím odstavci. Obvykle se nejpve řešením soustavy 4) získá odhad vaiančních komponent a ten se pak použije jako vstupní hodnota do vztahu 5). Soustava 4) se ale musí řešit iteačně a i zde je nutná nějaká vstupní počáteční hodnota vaiančních komponent, kteou je třeba stanovit na základě obsevačního vektou Y. V situaci, kdy nepotřebujeme znát odhady vaiančních komponent, se poto zdá být snazší použít jako vstupní hodnotu po 5) ovnou počáteční hodnoty vaiančních komponent a pomocí oblasti necitlivosti pak ozhodnout, zda tato volba byla vhodná a umožnila nám získat ozumný odhad paametů střední hodnoty. 4. Oblasti necitlivosti po paamety střední hodnoty Počáteční hodnoty vaiančních komponent vstupující do vztahu 5) mohou podstatně ovlivnit výsledné odhady, jejich volba je poto velmi důležitá. Zkusme si položit otázku, co se stane, změníme-li vaianční komponenty vstupující do vzoce 5) o δ. Výsledný odhad paametů střední hodnoty pak můžeme přibližně vyjádřit pomocí difeenciálu následovně 8
βˆ +δ) βˆ )+ ) βˆ δ. 6) Potože po úpavě ˆ ) β i = - [X Σ ) - X] - X Σ ) - V i Σ ) - [Y-X βˆ )], 7) kde Σ značí matici typu ) s místo ), můžeme podle 6) psát βˆ +δ) βˆ )- i= [X Σ ) - X] - X Σ ) - V i Σ ) - [Y-X βˆ )]δ i. 8) Z hlediska kvality výsledného odhadu se zdá být ozumné, aby při změně vstupních hodnot vaiančních komponent nedošlo k přílišnému náůstu dispeze odhadu paametů střední hodnoty. Budeme tedy hledat takovou množinu vstupních hodnot +δ, kteé nepovedou ke zvýšení směodatné odchylky odhadu dané lineání kombinace složek vektou β o více než ε % v poovnání se směodatnou odchylkou odhadu stejné lineání kombinace vycházejícího ze vstupní hodnoty. Takovou množinu nazveme oblastí necitlivosti po lineání funkci h β po dané a dané ε, v dalším textu ji po stučnost budeme nazývat oblastí necitlivosti po paamety střední hodnoty. To, že místo směodatných odchylek odhadů jednotlivých složek paametu β zkoumáme směodatné odchylky lineáních kombinací složek vektou β, má své opodstatnění. Zvolíme-li za vekto h i-tý jednotkový vekto, je příslušná lineání kombinace ovna i-té složce vektou β, o možnost sledovat směodatné odchylky složek odhadu jsme tedy nepřišli. Naopak máme navíc možnost věnovat se i lineáním kombinacím učeným jinými vektoy než jednotkovými. Podle výše uvedeného hledáme množinu takových +δ, po kteá platí Na základě vztahu 5) dostaneme {Va [h βˆ +δ)]} / +ε) {Va [h βˆ )]} /. 9) tedy Va [ βˆ )]= [X Σ ) - X] -, ) Va [h βˆ )]=h [X Σ ) - X] - h. ) Na základě 8) můžeme odvodit následující přibližné vyjádření Va [ βˆ + δ)] Va [ βˆ )]+ + [X Σ ) - X] - X Σ ) - Σ δ M X Σ M X ) + Σ δ Σ ) - X[X Σ ) - X] -. ) Σ δ zde značí matici δ i V i. Výslednou oblast necitlivosti pak označíme N h β,. Po i= úpavách ji můžeme zapsat takto: kde W h je matice s pvky N h β, = { +δ: δ) W h δ ε+ε )h [X Σ ) - X] - h}, 3) {W h } i,j = h [X Σ ) - X] - X Σ ) - V i M X Σ M X ) + V j Σ ) - X[X Σ ) - X] - h. 4) 9
Potože ε je malé kladné číslo obvykle se volí ε <, 5), můžeme většinou v 4) použít ε místo ε + ε ). Podobnější postup odvození oblastí necitlivosti je možné najít např. v [3], [4] nebo [6]. Dá se dokázat, že matice W h je singulání a vekto vstupních vaiančních komponent je kolmý na posto geneovaný sloupci matice W h. Důkaz je možné najít např. v [6]. Znamená to, že kvadatická foma δ) W h δ uvnitř množiny 3) učuje singulání kuželosečku. Po = je tak oblast necitlivosti vlastně pás vymezený dvěma ovnoběžnými přímkami, kteé jsou navíc ovnoběžné s oientovanou úsečkou spojující počátek soustavy souřadnic s bodem. 5. Použití oblastí necitlivosti Oblasti necitlivosti jsou, jak víme, množinami možných vstupních hodnot vaiančních komponent, kteé nezpůsobí příliš velký náůst směodatné odchylky odhadů. Abychom mohli posoudit kvalitu odhadů paametů střední hodnoty, espektive ozhodnout o tom, jestli za odhad paametu můžeme považovat už hodnotu učenou ze vztahu 5) dosazením počátečních hodnot vaiančních komponent, poovnáme oblast necitlivosti po paamety střední hodnoty s oblastí spolehlivosti po vaianční komponenty. Nevyplývá-li z konkétní situace jiná potřebná volba vektou h, volíme obvykle za h postupně jednotkové vektoy a všechny příslušné oblasti necitlivosti poovnáváme s oblastí spolehlivosti. Odvození oblasti spolehlivosti po vaianční komponenty si vysvětlíme po případ dvou vaiančních komponent tedy po situaci, kdy =, po větší hodnoty je postup analogický. Oblast spolehlivosti budeme hledat ve tvau obdélníku se středem v bodě ˆ ) tj. odhad vaiančních komponent získaný při použití počáteční hodnoty pvní iteací soustavy 4)), kteý pokývá skutečné hodnoty vaiančních komponent s danou pavděpodobností -α. Podle Čebyševovy neovnosti viz např. []) platí ˆ ) [ ˆ P k Va )] 5) k a podobně P ˆ ) k Va [ ˆ )]. 6) k Bonfeoniho neovnost, kteá je uvedena např. v [5], pak zohledňuje 5) i 6): P ˆ ) k Va [ ˆ )] ˆ ) k Va [ ˆ )]. 7) k Potřebujeme, aby = α, tedy k =. Oblast spolehlivosti po vaianční k α komponenty E, je tedy množina E, = = : ˆ ) Va [ ˆ )] ˆ ) [ ˆ Va )]. 8) α α Pokud bude v konkétním případě obdélník představující oblast spolehlivosti uvnitř pásu oblasti necitlivosti, jak je uvedeno na obázku, znamená to, že sβˆ ) můžeme pacovat jako s kvalitním odhadem paametů střední hodnoty.
Ob. : Vzájemná poloha oblasti necitlivosti a oblasti spolehlivosti kvalitní odhad paametu Pokud ovšem bude oblast spolehlivosti oblast necitlivosti výazně přesahovat, můžeme se při učování odhadů velmi snadno dostat do situace, kdy dispeze složek učeného odhadu budou příliš velké a takovému odhadu pak nemůžeme přikládat velkou váhu. Vzájemná poloha oblasti necitlivosti a oblasti spolehlivosti odpovídající takové situaci je na obázku. Ob. : Vzájemná poloha oblasti necitlivosti a oblasti spolehlivosti nekvalitní odhad paametu 6. Závě Pokud by při odhadování paametů střední hodnoty konkétního modelu nastala vzájemná poloha oblasti necitlivosti a oblasti spolehlivosti podobná té na obázku, je třeba zvolit místo jinou vstupní hodnotu vaiančních komponent. Můžeme třeba použít jako počáteční hodnotu do soustavy ovnic 4), tyto ovnice iteačně vyřešit a výsledný odhad vaiančních komponent pak použít po získání odhadu paametů střední hodnoty. Pokud ani toto nepomůže, je třeba zkoušet jiné počáteční hodnoty vstupující do výše zmíněné iteační
poceduy. Ukazuje se však, že v někteých modelech vůbec není možné volbou vstupních vaiančních komponent docílit vzájemné polohy jako na obázku. Použitá liteatua: [] ANDĚL, J. Statistické metody.. vydání. Paha: MATFYZPRESS, 3.3 s. ISBN 8-85863-7-8. [] BOHÁČOVÁ, H. Odhad paametů střední hodnoty a paametů vaianční matice ve smíšeném lineáním modelu s podmínkami typu I a II. In Scientific papes of the Univesity of Padubice Seies D, 7, s. 5-. ISSN -555X. [3] BOHÁČOVÁ, H., HECKENBERGEROVÁ, J. Oblasti necitlivosti po paamety střední hodnoty ve smíšeném lineáním egesním modelu s podmínkami typu I a s nimi spojené výpočetní poblémy. In Foum Statisticum Slovacum, 7, oč. 3, č. 6, s. 3-35. ISSN 336-74. [4] BOHÁČOVÁ, H. Insensitivity egion fo vaiance components in geneal linea model. In Acta Univesitatis Palackianae Olomucensis, Facultas Reum Natualium, Mathematica, 8, oč. 49, s. 7-. ISSN 3-97 [5] HUMAK, K. M. S. Statistische Methoden de Modellbildung, Band I Statistische Infeen fű lineae Paamete, Belin: Akademie Velag, 977, 56 s. [6] KUBÁČEK, L., KUBÁČKOVÁ, L. Statistika a metologie. Olomouc: Univezita Palackého v Olomouci vydavatelství,. 37 s. ISBN 8-44-93-6. [7] RAO, C. R., KLEFFE, J. Estimation of Vaiance Components and Applications, Amstedam New Yok Oxfod Tokyo: Noth-Holland, 988, 496 s. ISBN -444-73-4 Kontaktní adesa: Mg. Hana Boháčová Univezita Padubice Fakulta ekonomicko-spávní Ústave matematiky Studentská 84 53 Padubice Email: Hana.Bohacova @upce.cz