Testy homoskedasticity v lineárním modelu

Podobné dokumenty
12. N á h o d n ý v ý b ě r

8. Analýza rozptylu.

3. Lineární diferenciální rovnice úvod do teorie

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Náhodný výběr 1. Náhodný výběr

4. B o d o v é o d h a d y p a r a m e t r ů

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Pravděpodobnost a aplikovaná statistika

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Intervalové odhady parametrů některých rozdělení.

n-rozměrné normální rozdělení pravděpodobnosti

Kapitola 5 - Matice (nad tělesem)

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Matematika I, část II

14. B o d o v é o d h a d y p a r a m e t r ů

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

Pravděpodobnost a aplikovaná statistika

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Pavel Pejřimovský. Katedra pravděpodobnosti a matematické statistiky

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

Odhady parametrů 1. Odhady parametrů

1 Uzavřená Gaussova rovina a její topologie

Spojitost a limita funkcí jedné reálné proměnné

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 17. ledna 2019

Komplexní čísla. Definice komplexních čísel

Kapitola 4 Euklidovské prostory

Obsah. 1 Mocninné řady Definice a vlastnosti mocninných řad Rozvoj funkce do mocninné řady Aplikace mocninných řad...

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

6. Posloupnosti a jejich limity, řady

MATICOVÉ HRY MATICOVÝCH HER

Deskriptivní statistika 1

2.4. INVERZNÍ MATICE

DERIVACE FUNKCÍ JEDNÉ REÁLNÉ PROM

NEPARAMETRICKÉ METODY

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

8. Odhady parametrů rozdělení pravděpodobnosti

8.2.1 Aritmetická posloupnost

2. Náhodná veličina. je konečná nebo spočetná množina;

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

8.2.1 Aritmetická posloupnost I

3. Charakteristiky a parametry náhodných veličin

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Sekvenční logické obvody(lso)

NMAF061, ZS Zápočtová písemná práce VZOR 5. ledna e bx2 x 2 e x2. F (b) =

5. Posloupnosti a řady

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Masarykova univerzita Přírodovědecká fakulta

PRAVDĚPODOBNOST A STATISTIKA

a logaritmickou funkci a goniometrické funkce. 6.1 Násobení řad. Podívejme se neprve na násobení mnohočlenů x = x x n a y = y y n.

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

1.3. POLYNOMY. V této kapitole se dozvíte:

NMAF061, ZS Zápočtová písemná práce skupina A 16. listopad dx

Intervalové odhady parametrů

Přednáška 7, 14. listopadu 2014

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 25. ledna x 1 n

Definice obecné mocniny

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Matematika I. Název studijního programu. RNDr. Jaroslav Krieg České Budějovice

1.2. NORMA A SKALÁRNÍ SOUČIN

Pravděpodobnost a aplikovaná statistika

Úloha III.S... limitní

Závislost slovních znaků

17. Statistické hypotézy parametrické testy

ŘADY Jiří Bouchala a Petr Vodstrčil

Úloha II.S... odhadnutelná

Iterační metody řešení soustav lineárních rovnic

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

1 Základy Z-transformace. pro aplikace v oblasti

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU

P2: Statistické zpracování dat

IAJCE Přednáška č. 12

Abstrakt. Co jsou to komplexní čísla? K čemu se používají? Dá se s nimi dělat

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

definované pro jednotlivé řády takto: ) řádu n nazýváme číslo A = det( A) a a a11 a12

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Bc. Barbora Šimková. Odhady parametrů rozdělení náhodných veličin

je číselná posloupnost. Pro všechna n položme s n = ak. Posloupnost

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Vyhledávání v tabulkách

11. přednáška 16. prosince Úvod do komplexní analýzy.

n=0 a n, n=0 a n = ±. n=0 n=0 a n diverguje k ±, a píšeme n=0 n=0 b n = t. Pak je konvergentní i řada n=0 (a n + b n ) = s + t. n=0 k a n a platí n=0

P. Girg. 23. listopadu 2012

20. Eukleidovský prostor

Petr Šedivý Šedivá matematika

Číselné charakteristiky náhodných veličin

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ASYMPTOTICKÉ TESTY HYPOTÉZ V MODELECH S RUŠIVÝMI PARAMETRY

Transkript:

Uiverzita Karlova v Praze Matematicko-fyzikálí fakulta BAKALÁŘSKÁ PRÁCE Ja Vávra Testy homoskedasticity v lieárím modelu Katedra pravděpodobosti a matematické statistiky Vedoucí bakalářské práce: Studijí program: Studijí obor: doc RNDr Arošt Komárek, PhD Matematika Obecá matematika Praha 06

Poděkováí Rád bych a tomto místě věoval poděkováí vedoucímu bakalářské práce doc RNDr Aroštu Komárkovi, PhD za to, že si vždy ašel chvíli, aby mi poskytul esčeté možství odborých rad a připomíek, které dopomohly k fiálí podobě této práce

Prohlašuji, že jsem tuto bakalářskou práci vypracoval samostatě a výhradě s použitím citovaých prameů, literatury a dalších odborých zdrojů Beru a vědomí, že se a moji práci vztahují práva a poviosti vyplývající ze zákoa č /000 Sb, autorského zákoa v platém zěí, zejméa skutečost, že Uiverzita Karlova v Praze má právo a uzavřeí licečí smlouvy o užití této práce jako školího díla podle 60 odst autorského zákoa V de Podpis autora

Název práce: Testy homoskedasticity v lieárím modelu Autor: Ja Vávra Katedra: Katedra pravděpodobosti a matematické statistiky Vedoucí bakalářské práce: doc RNDr Arošt Komárek, PhD, Katedra pravděpodobosti a matematické statistiky Abstrakt: Tato práce se zabývá testováím předpokladu homoskedasticity v lieárím modelu, eboli předpokladu o kostatím rozptylu chyb tohoto modelu Takových testů existuje celá řada, ale e všechy se dají aplikovat a kokrétím modelu a e všechy dosahují uspokojivých výsledků za růzých okolostí Práce se zaměří a testy, které lze odvodit a základě asymptotické teorie maximálí věrohodosti, zvláště pak teorie testů s rušivými parametry Odvozey jsou dva základí testy, prví v situaci modelu aalýzy rozptylu jedoduchého tříděí a druhý v situaci, kdy je připuštěa závislost rozptylu a doprovodých veličiách V ásledých umerických studiích jsou prověřey vlastosti odvozeých testových statistik Klíčová slova: homoskedasticita, heteroskedastický lieárí model Title: Homoscedasticity Tests i a Liear Model Author: Ja Vávra Departmet: Departmet of Probability ad Mathematical Statistics Supervisor: doc RNDr Arošt Komárek, PhD, Departmet of Probability ad Mathematical Statistics Abstract: This thesis deals with testig the assumptio of homoscedasticity i liear model, that is the assumptio of costat variace of this model There is plety of such tests, but ot all of them ca be applied to specific model ad ot all of them reach satisfactory results uder various circumstaces Thesis focuses o tests which ca be derived o the basis of the asymptotic theory for maximum likelihood estimatio, particularly the test theory with uisace parameters There are derived two basic tests, the first oe i the situatio of aalysis of variace model ad the secod oe i the situatio whe we allow the depedece of variace to cocomitat quatities I subsequet umerical studies there are examied characteristics of derived test statistics Keywords: homoscedasticity, heteroscedastic liear model

Obsah Používaé začeí Úvod 4 Lieárí model 5 Klasický lieárí model 5 Metoda ejmeších čtverců 7 3 Heteroskedastické modely 9 Maximálí věrohodost Metoda maximálí věrohodosti Testy s rušivými parametry 4 3 Bartlettův test 7 3 Test založeý a věrohodostím poměru 8 3 Porováí testových statistik 4 4 Breusch-Pagaův test 6 5 Numerické studie 33 5 Experimetálí porováí statistik B a LR 33 5 Breusch-Pagaův test 36 Závěr 4 Literatura 4 Sezam obrázků 43 Sezam tabulek 44 Přílohy 45

Používaé začeí V této práci se budeme držet ásledujících kovecí: Malými římskými a řeckými písmey budeme ozačovat jedorozměré kostaty, parametry či fukce Písmea i, j, k, l, m, budou ozačovat přirozeá čísla Velkými římskými písmey budeme až a výjimky - ε ozačovat áhodé veličiy X, Y, Z, jejich realizace potom příslušými malými písmey x, y, z Dále také v ěkolika případech použijeme velkých římských a řeckých písme pro ozačeí moži M, Ω, Θ, Tučými písmey budeme začit vektory Každý vektor bude chápá jako sloupcový Pro áhodé vektory budeme až a výjimky - u užívat velká římská písmea X, Y, Z a jejich realizace příslušými malými písmey x, y, z Pro matice budeme používat zdvojeých velkých římských písme A, X ebo Σ V textu budeme používat začeí X jak pro áhodou matici, tak i její realizaci, je tedy třeba výzam symbolu určit z kotextu Symboly N a R máme vyhrazey pro ozačeí možiy přirozeých a reálých čísel Pro míry máme vyhrazeý speciálí fot řeckých písme µ, ν, λ Bezpatkové písmo je používáo pro začeí pravděpodobostích rozděleí N, Mult, LM, ebo určitých fukcioálů či operátorů E, var, Tr, Strojové písmo budeme používat pro pojmy spojeé s výpočetím softwarem bartletttest, bptest, Použití stříšky či vlky ad písmeem začí, že se jedá o odhad tohoto parametru, často je ásledová idexem ozačující rozsah áhodého výběru Například β, σ, Speciálí symboly: Ω, A, P pravděpodobostí prostor s možiou jevů Ω, sj σ-algebrou A a pravděpodobostí mírou P skoro jistě vzhledem k pravděpodobostí míře P [µ] sv skoro všude/všecha vzhledem k míře µ λ, λ Lebesgueova -rozměrá míra B 0 borelovská σ-algebra a R

Y X E [Y X] var [Y X] diag TrA deta x, X A podmíěé rozděleí áhodé veličiy Y při X podmíěá středí hodota áhodé veličiy Y při X podmíěý rozptyl áhodé veličiy Y při X diagoálí matice s daými prvky a diagoále stopa matice A determiat matice A operátor traspozice vektoru x a matice X iverzí matice k matici A x eukleidovská orma vektoru x = x,, x, x = x + + x -složkový sloupcový vektor, jehož prvky jsou je I jedotková matice řádu, eboli diag,, 0, 0 -složkový sloupcový ulový vektor 0 -složkový řádkový ulový vektor O m ulová matice řádu m δ ij Kroeckerovo delta, δ ij = jediě tehdy, když i = j, jiak δ ij = 0 l F m H 0, H D χ q χ qα R logaritmická věrohodost systém hustot geerovaý parametrickým prostorem o dimezi m ulová hypotéza a alterativa kovergece v distribuci chí kvadrát rozděleí o q N stupích volosti α-kvatil rozděleí chí kvadrát o q stupích volosti symbol pro ozačeí statistického výpočetího softwaru R 3

Úvod Úkolem této práce bude ejdříve představit klasický lieárí model, kde se předpokládá kostatí rozptyl chyb, a ásledě ho zobecit a heteroskedastický lieárí model, který už bude obecě předpokládat promělivost tohoto rozptylu Jedodušší defiice lieárího modelu předpokládá, že uvažovaé regresory jsou předem zámé kostaty V tomto textu ovšem budeme předpokládat, že regresory budou obecě áhodé vektory Toto zobecěí ás tedy utí pracovat s podmíěým rozděleím, podmíěou středí hodotou a podmíěým rozptylem Dále jelikož teorie maximálí věrohodosti a z í vycházející teorie testů s rušivými parametry tvoří základy, ze kterých budeme při odvozováí testů vycházet, shreme ve druhé kapitole stěžejí defiice a pozatky těchto přístupů, a které se budeme odvolávat Ve třetí kapitole si představíme model aalýzy rozptylu jedoduchého tříděí, kde budeme obecě předpokládat eje rozdílé středí hodoty, ale i rozptyly v jedotlivých skupiách Teto model si zobecíme do pojmů defiovaých v prví kapitole a ásledě podrobě odvodíme test homoskedasticity poměrem věrohodosti Sezámíme se také s velmi podobou statistikou, kterou již v roce 937 avrhl aglický statistik Maurice Steveso Bartlett a dáme ji do souvislosti s odvozeým testem poměrem věrohodostí Ve čtvrté kapitole se podíváme a heteroskedastický lieárí model, kde připouštíme závislost rozptylu a doprovodých regresorech Důkladě v tomto modelu odvodíme takzvaý skórový test, který avrhli v roce 979 australští statistici Trevor Breusch a Adria Paga V závěrečé kapitole za pomoci výpočetího prostředí R R Core Team, 06prostudujeme vlastosti odvozeých testových statistik Zejméa ás bude zajímat, zda dodržují předepsaou hladiu a jak přesá je použitá asymptotika při malém rozsahu výběru Dále se zaměříme a studium síly těchto testů a chováí příslušých statistik při esplěí předpokladu ormality 4

Kapitola Lieárí model V této kapitole se sezámíme s klasickým a heteroskedastickým lieárím modelem a základími pojmy, se kterými budeme dále pracovat Uvedeme si také základí tvrzeí a věty, které z těchto defiic vyplývají Klasický lieárí model Nejprve si zavedeme klasický lieárí model Uvažme reálý áhodý vektor Y, X a pravděpodobostím prostoru Ω, A, P se sdružeou hustotou fy, x vzhledem k σ-koečé míře ν = ν y ν x, kde Y je áhodá veličia a X = X 0, X,, X k je áhodý vektor dimeze k + pro k N 0 Dále budeme předpokládat, že ν y je Lebesgueova míra λ a R, B 0 Defiice Řekeme, že Y, X se řídí lieárím modelem, pokud E [Y X] = X β var [Y X] = σ sj, sj, kde β R k+ a σ > 0 jsou ezámé parametry, a pokud rozděleí áhodého vektoru X a těchto parametrech ezávisí Nadále budeme psát Y, X LM X β, σ Pozámka Několik doplňujících pozámek k defiici a Náhodé veličiě Y se říká vysvětlovaá proměá ebo také závisle proměá a áhodému vektoru X říkáme regresory ebo také ezávisle proměé Dále říkáme, že se jedá o lieárí model, protože podmíěá středí hodota Y při X závisí a β lieárě b Častým předpokladem v lieárích modelech bývá, že áhodá veličia X 0 má degeerovaé eáhodé rozděleí X 0 = skoro jistě Náhodý vektor X jsme tedy zavedli jako k + -složkový, abychom teto případ mohli odlišit ve zvláští ulté složce c V textu budeme dále pracovat s podmíěým rozděleím Y X, jehož hustotu budeme začit f Y X Tato hustota závisí a parametrech β a σ Ozačme f X hustotu áhodého vektoru X, tato už a β a σ ezávisí Ze zámých vlastostí hustot z teorie pravděpodobosti platí fy, x; β, σ = f Y X y x; β, σ f X x [ν] sv 5

Defiice V lieárím modelu Y, X LM X β, σ zavedeme áhodou veličiu ε jako ε := Y X β a budeme ji azývat chybový čle modelu Pozámka ε z defiice odpovídá áhodé veličiě popisující odchylku či chybu - error vysvětlovaé proměé od její podmíěé středí hodoty Jakožto áhodou veličiu bychom ji tedy měli dle aší kovece začit velkým římským písmeem Ovšem použití písmea E by mohlo sado vést k záměě s operátorem středí hodoty E, proto si zde dovolíme od aší kovece upustit a začit tuto veličiu právě písmeem ε Lemma Necht Y, X LM X β, σ, potom pro ε z defiice platí E ε = 0, var ε = σ Důkaz Oba vzorce dostaeme použitím základích vlastostí podmíěé středí hodoty a vzorce z defiice lieárího modelu Pro středí hodotu áhodé veličiy ε platí E ε = E E [ε X] = E E [Y X] E [ X β X ] = E X β X β = 0 Pro rozptyl ε si ejprve připomeeme vzorec 3 pro U,V obecé áhodé vektory Platí, že var U = E var [U V ] + var E [U V ] 3 Teto vzorec aplikujeme a U = ε a V = X Už v miulém výpočtu jsme došli ke zjištěí, že E [ε X] = 0 sj, proto druhý čle ve vzorci 3 bude také ulový Zaměřme se proto a výpočet var [ε X], pro který platí var [ε X] = var [ Y X β ] X [ Y = E X β E [ Y X β X ] ] X = E [ Y E [Y X] ] X = var [Y X] = σ sj Odtud již plye, že var ε = E var [ε X] = E σ = σ Stadardí situací bývá, že parametry β a σ jsou ezámé a aším cílem je odhadout tyto parametry a základě aměřeých dat, které reprezetujeme áhodým výběrem z příslušého rozděleí Dále si defiujeme řadu užitečých charakteristik, které ám přiblíží chováí ašeho modelu Mějme áhodý výběr Y, X,, Y, X z rozděleí Y, X LM X β, σ 6

Zaved me si áhodý vektor Y = Y,, Y a áhodou matici X s řádky X i, i {,, } Pak z ezávislosti a defiice plye, že E [Y X] = Xβ var [Y X] = σ I sj, sj, kde I začí jedotkovou matici řádu Defiice 3 Budeme říkat, že Y, X se řídí lieárím modelem, a zapisovat to budeme také jako Y, X LM Xβ, σ I Daou realizaci áhodého výběru budeme začit y i, x i pro i {,,} a dále y = y,, y Symbolem X budeme rozumět jak ou realizaci X = tak i áhodou matici X V celém textu budeme pro jedoduchost předpokládat, že > k + a že tato matice má skoro jistě plou sloupcovou hodost k +, kterou budeme začit r, tj r = k + Náhodý výběr z defiice 3 pak má dle sdružeou hustotu vzhledem k součiové míře ν = ν ν tvaru f y, X; β, σ = fy i, x i ; β, σ = f Y X y i x i ; β, σ f X x i 4 x x, = f Y X y X; β, σ f X X [ν ] sv, kde f Y X začí hustotu sdružeého podmíěého rozděleí Y X a f X začí sdružeou hustotu áhodé matice X Obdobě si také zavedeme vektor chybových čleů modelu ε = ε,, ε, kde ε i = Y i X i β pro každé i {,, }, tedy ε = Y Xβ Potom pro ěj dle důkazu lemmatu platí E [ε X] = 0 sj, var [ε X] = σ I sj Metoda ejmeších čtverců Nyí můžeme přistoupit k odhadu vektorového parametru β Stadardí metodou pro alezeí tohoto odhadu je metoda ejmeších čtverců Součtem čtverců rozumíme fukci SSβ při daých Y, X defiovaou jako SSβ = Y Xβ = Y Xβ Y Xβ = Yi Xi β Odhadem b vektorového parametru β metodou ejmeších čtverců potom rozumíme takovou hodotu β, která miimalizuje fukci SSβ, to jest b = arg mi SSβ β R k+ 7

Za ašeho předpokladu o plé sloupcové hodosti matice X lze toto b jedozačě určit jako řešeí tzv soustavy ormálích rovic X Xb = X Y ve tvaru b = X X X Y Defiice 4 V modelu Y, X LM Xβ, σ I defiujeme vektor vyrovaých hodot Ŷ := Xb = X X X X Y, vektor reziduí u := Y I Ŷ = X X X X Y, reziduálí součet čtverců RSS := SSb = u = Y i Ŷi, reziduálí rozptyl S := RSS, kde r = k + je hodost matice X r Pozámka Y Ŷ je opět áhodý vektor, tedy bychom měli užívat pro ozačeí reziduí velkého písmee U Zde se držíme začeí zavedeého v učebici Zvára 008, ze které primárě vycházíme Pozámka Vektor Ŷ je estraým odhadem vektoru Xβ, ebot ] E [Ŷ X = X X X X E [Y X] = X X X X Xβ = Xβ sj Pro podmíěý rozptyl tohoto odhadu platí ] var [Ŷ X = X X X X σ I X X X X = σ X X X X sj Reziduálí součet čtverců odpovídá dle této defiice součtu čtverců vzdáleostí odhadů Ŷi od Y i, tedy ám vypovídá o tom, jak moc dobře ám Ŷ aproximuje Y Jeho vztah k podmíěém rozptylu σ je popsá v ásledujícím lemmatu Lemma V modelu Y LM Xβ, σ I, kde daá matice X má hodost r, platí E [RSS X] = rσ sj, E [ S X ] = σ sj Důkaz Důkaz je aalogický důkazu věty v práci Zvára 008, uvedeme si však ěkolik úprav, které je v důkazu uté provést Ozačíme-li si matice H = X X X X a M = I H, pak tyto matice jsou symetrické a idempotetí se stopami po řadě r a r a platí Ŷ = HY, u = MY = Mε Mimochodem se potom dá z těchto vyjádřeí získat E [u X] = 0 sj, var [u X] = σ M sj Chceme získat podmíěou středí hodotu RSS při X, k tomu využijeme ekvivaletích zápisů RSS = u = u u = ε M Mε = ε Mε 8

Nyí už se je využije vlastostí fukcioálu stopy matice Tr, abychom mohli provést ásledující úpravy E [RSS X] = E [ ε Mε X ] = E [ Tr ε Mε X ] = Tr M E [ εε X ] = Tr M var [ε X] = Tr Mσ I = σ Tr M = rσ sj Odtud již sado plye i druhé tvrzeí Při práci s lieárími modely se často předpokládá ormalita podmíěého rozděleí Y X Defiice 5 Řekeme, že Y, X se řídí ormálím lieárím modelem, jestliže Y X má ormálí rozděleí s parametrem středí hodoty X β a rozptylem σ Píšeme Y, X NLM X β, σ Máme-li áhodý výběr Y, X,, Y, X z takovéhoto rozděleí Y, X, pak říkáme, že se Y, X řídí ormálím lieárím modelem a píšeme Y, X NLM X β, σ I Podmíěá hustota f Y X vzhledem k Lebesgueově míře λ je tedy tvaru f Y X y x; β, σ y x = { exp β } πσ σ Podmíěá hustota f Y X rozděleí Y X vzhledem k Lebesgueově -rozměré míře λ je potom rova f Y X y X; β, σ = { πσ exp yi x σ i β } Věta 3 V modelu Y, X NLM X β, σ I platí σ RSS X = σ u X χ r, kde r je hodost matice X Důkaz Lze provést aalogicky jako v práci Zvára 008, Věta 6 3 Heteroskedastické modely Doposud jsme pracovali s klasickým tzv homoskedastickým modelem, kde var [Y X] je rovo skoro jistě kostatě Teto předpoklad ám začě usadňuje práci Obecě je však uto uvážit situaci, kdy toto eí utě pravda a rozptyl závisí a regresorech Naším cílem je tedy alézt ějaké testy, které by dokázaly určit, zda aše data jsou v souladu s předpokladem homoskedasticity ebo aopak teto předpoklad silě vyvracejí Existuje řada obecých způsobů, jak v lieárím modelu zavést heteroskedasticitu V této práci budeme říkat, že áhodý vektor Y, X se řídí heteroskedastickým lieárím modelem, pokud platí E [Y X] = X β var [Y X] = σ hx; τ sj, sj, 5 9

kde β R k+, σ > 0 a τ T R q, q N jsou ezámé parametry, h je kladá měřitelá fukce, a pokud rozděleí áhodého vektoru X a parametrech β, σ a τ ezávisí Obecě by se dalo předpokládat, že fukce h může avíc záviset a β, tuto situaci však zkoumat ebudeme Nastae-li tato situace, tak budeme aalogicky jako v klasickém lieárím modelu psát Y, X LM X β, σ hx; τ aebo Y, X NLM X β, σ hx; τ v případě, že podmíěé rozděleí Y X je ormálí Pro hustotu vzhledem k míře ν tohoto rozděleí platí fy, x; τ, β, σ = f Y X y x; τ, β, σ f X x [ν] sv Když budeme opět uvažovat áhodý výběr Y, X,, Y, X z tohoto rozděleí, tak poecháváme začeí Y a X a budeme říkat, že Y, X se řídí heteroskedasticitím modelem s podmíěou rozptylovou maticí ΣX := var [Y X] = σ diag hx ; τ,, hx ; τ sj a psát budeme Y, X LM Xβ, ΣX V případě, že podmíěé rozděleí Y X je ormálí, budeme aalogicky psát Y, X NLM Xβ, ΣX Vzhledem k tomu, že fukce hx i ; τ, i {,, } jsou kladé, tak existují matice Σ X = σ diag hx ; τ,,, hx ; τ Σ X = σ diag hx ; τ,, hx ; τ Σ X = σ diag hx ; τ,, hx ; τ Lemma 4 Necht Y, X LM Xβ, ΣX Potom Y = Σ XY LM Σ XXβ, I Důkaz Jelikož je Y = Σ XY = každé i {,, } platí [ ] Y i E σ hx i ; τ X i [ ] Y i var σ hx i ; τ X i tak platí tvrzeí lemmatu Y σ hx ; τ,, Y σ a pro hx ; τ = E [Y i X i ] σ hx i ; τ = X i β σ hx i ; τ = var [Y i X i ] σ hx i ; τ = σ hx i ; τ σ hx i ; τ = Na vektor Y tedy můžeme aplikovat pozatky z podkapitol a a pomocí tohoto lemmatu je převést do heteroskedastického modelu 0, sj, sj,

Kapitola Maximálí věrohodost Důležitou roli při odvozováí celé řady testů homoskedasticity hraje teorie maximálí věrohodosti V této kapitole si představíme základí pojmy z této teorie a ásledě si ukážeme, jak se aplikuje v heteroskedastickém lieárím modelu Metoda maximálí věrohodosti Defiice 6 Mějme V = V,, V áhodou matici, kde V,, V jsou ezávislé stejě rozděleé k-složkové áhodé vektory s hustotou f V v; θ vůči σ-koečé míře µ a θ Θ R m je parametr Pro pevou realizaci V = v,, v azveme fukci Lθ := f V v i ; θ věrohodostí fukcí Defiice 7 Hodota θ Θ, která maximalizuje věrohodostí fukci Lθ pro daou realizaci áhodé matice V, se azývá maximálě věrohodý odhad Při hledáí maximálě věrohodého odhadu se využívá toho, že libovolá ryze rostoucí trasformace věrohodostí fukce je maximalizováa ve stejém bodě Nejčastěji se využívá logaritmická trasformace Potom při daé realizaci V azveme logaritmickou věrohodostí fukci lθ = log Lθ Tato fukce se dá adále chápat jako áhodá veličia, uvažujeme-li ji také jako fukci obecé áhodé matice V Existují-li derivace věrohodostí fukce podle všech složek parametru θ pro každé θ Θ, tak se za dalších předpokladů které ám zajistí existeci a maximalitu řešeí dá θ alézt jako řešeí takzvaého systému věrohodostích rovic: lθ θ j = 0 j {,, m} Defiice 8 Necht V je k-složkový áhodý vektor s hustotou f V v; θ vzhledem k σ-koečé míře µ a θ Θ R m A echt dále platí podmíky regularity: R Θ je eprázdá otevřeá možia R M = {v R k : f V v; θ > 0} ezávisí a parametru θ

R3 Pro [µ] skoro všecha v M a pro každé j {,, m} existují f jv; θ := f V v; θ θ j R4 Pro všecha θ Θ a všecha j {,, m} platí M f jv; θdµv = 0 R5 Pro všechy dvojice i, j {,, m} existuje koečý itegrál J ij θ := M f iv; θ f jv; θ f V v; θ f V v; θ f V v; θdµv R6 Matice Jθ = J ij θ m i,j= je pozitivě defiití pro každé θ Θ Potom se systém hustot F m = {f V v; θ, θ Θ} azývá regulárí Matice Jθ se azývá Fisherova iformačí matice pro áhodý vektor V Věta 5 Necht systém hustot F m = {f V v; θ, θ Θ} je regulárí Předpokládejme, že pro [µ] skoro všecha v M existují derivace f ijv; θ = f V v; θ θ i θ j, i, j {,, m}, a že pro všecha θ Θ platí f ijv; θdµv = 0, M i, j {,, m} Pak jedotlivé prvky Fisherovy iformačí matice lze počítat jako log f V v; θ J ij θ = f V v; θdµv, θ i θ j kde i, j {,, m} M Důkaz Důkaz je aalogický důkazu verze věty s jedorozměrým parametrem viz Aděl, 007, Věta 79 Máme-li áhodý výběr V = V,, V, pak Fisherova iformačí matice áhodé matice V, kterou ozačíme J θ, se dá zřejmě počítat jako J θ = Jθ Podle věty 5 lze potom její jedotlivé prvky počítat jako [ ] J ij θ = E lθ, i, j {,, m} θ i θ j

Příklad Maximálí věrohodost v lieárím modelu Nyí si ukážeme, jak aplikovat maximálí věrohodost v situaci heteroskedastického lieárího modelu Necht tedy Y, X LM X β, σ hx; τ, viz 5 Ozačme tedy θ = τ,, τ q, β 0,, β k, σ a Θ = T R k+ 0, Hustota áhodého vektoru vzhledem k σ-koečé míře ν má tvar fy, x; θ = f Y X y x; θ f X x [ν] sv Pak pokud systém hustot F q+k+ = {fy, x; θ, θ Θ} je regulárí, tak fukce log fy, x; θ = log f Y X y x; θ + log f X x [ν] sv, a její derivace podle libovolého θ j, j {,, q + k + } je rova log fy, x, θ θ j = log f Y Xy x; θ θ j [ν] sv, ebot fukce log f X x a parametru θ vůbec ezávisí Mějme áhodý výběr Y, X,, Y, X z rozděleí Y, X LM X β, σ hx; τ Potom logaritmickou věrohodostí je dle 4 fukce lθ = log f Y, X; θ = log f Y X Y X; θ + log f X X = log f Y X Y i X i ; θ + log f X X i [ν ] sv Pro její derivaci dle proměé θ j, j {,, q + k + } platí lθ θ j = log f Y X Y i X i ; θ θ j [ν ] sv Tedy maximálě věrohodý odhad θ parametru θ lze ajít je ze zalosti podmíěého rozděleí Y X jako řešeí systému věrohodostích rovic log f Y X Y i X i ; θ θ j = 0, j {,, q + k + } Dále pokud jsou avíc splěy předpoklady věty 5, tak k výpočtu Fisherovy matice stačí pracovat je s hustotou podmíěého rozděleí Potom Fisherova iformačí matice J θ pro áhodou matici Y, X se skládá z prvků J ij θ = log f Y X Y l X l ; θ E θ i θ j l=, i, j {,, q + k + } V této práci budeme dále předpokládat, že oo podmíěé rozděleí je ormálí, které zřejmě předpoklady regularity R-R6 a věty 5 splňuje Jedié, co budeme při aší parametrizaci muset dodržet avíc, jsou předpoklady o parametrickém prostoru Θ 3

Testy s rušivými parametry V modelu Y, X LM X β, σ hx; τ budeme vzhledem k aší parametrizaci 5 chtít testovat, zda je fukce h ideticky rova jedé, tj h, ebot potom bude platit homoskedastický model Y, X LM X β, σ Hypotéza tvaru h potom bude odpovídat specifické hodotě parametru τ, popř β, pokud bychom uvažovali závislost a středí hodotě Vyvstává ám zde ovšem problém Chceme testovat hypotézu o parametru τ, ale v aší parametrizaci ještě vystupují další ezámé parametry β a σ Návod, jak testovat hypotézy je o části ezámých parametrů, poskytuje právě teorie testů s rušivými parametry Uvažme opět obecě áhodý vektor V s hustotou f V v; θ vůči σ-koečé míře µ a θ = θ,, θ m je m-rozměrý parametr, kde tetokrát m Teto parametr si rozdělme a dvě části Bud q < m a ozačme τ = θ,, θ q, ψ = θ q+,, θ m Parametr τ bude áš cílový parametr, o kterém budeme chtít provádět test hypotézy H 0 : τ = τ 0 proti alterativě H : τ τ 0 Parametr ψ je potřebý je k plému popisu modelu, ale o ěm žádou hypotézu testovat ehodláme, azveme jej tedy rušivým parametrem Naše testy budou založeé a teorii maximálí věrohodosti, proto předpokládejme, že systém hustot F m je regulárí viz defiice 8 a jsou splěy další předpoklady věty 5 Mějme dále áhodý výběr V = V,, V z rozděleí s hustotou f V v; θ Ozačme U θ = lθ τ = lθ θ lθ θ q, U θ = lθ ψ = lθ θ q+ lθ θ m a dále si Fisherovu iformačí matici pro celý áhodý výběr rozdělme a bloky J J θ J θ θ = J θ J, θ kde J je matice typu q q a ostatí matice mají takový rozměr, aby J byla matice typu m m Dále bude uté zavést začeí, které ám umoží zapsat iverzi blokové diagoálí matice Vše ám shruje ásledující lemma Lemma 6 Necht J J J = J J je regulárí matice, přičemž bloky J a J jsou čtvercové a regulárí Položme J = J J J J, J = J, J = J J J, J = J J J J, J = J, J = J J J 4

Pak J J J = J J Důkaz Sadými algebraickými úpravami se ukáže, že souči matice J a J dává jedotkovou matici Pro zavedeí testových statistik potřebujeme maximálě věrohodé odhady parametru θ Musíme ovšem rozlišit dva odhady Prví z ich, který budeme začit θ, bude maximálě věrohodý odhad parametru θ, který eí svazová žádými dalšími podmíkami Teto odhad rozdělíme podle parametrů τ a ψ a θ = Druhý z ich, který budeme začit θ, bude maximálě věrohodý odhad za platosti ulové hypotézy τ = τ 0 Zde se tedy maximalizace týká je parametru ψ, jehož maximálě věrohodý odhad za platosti hypotézy budeme začit ψ Potom θ lze zapsat jako θ = τ 0 ψ Nyí si zavedeme ásledující statistiky τ ψ = arg max θ Θ:τ =τ 0 lθ ] [ ] LM = [U θ J θ U θ, W = τ τ 0 J θ τ τ 0, [ ] LR = l θ l θ 3 U těchto statistik jsme schopi alézt jejich asymptotické rozděleí za platosti H 0 : τ = τ 0, ovšem je za platosti dalších utých předpokladů Potom tedy využijeme této zalosti asymptotického rozděleí, abychom sestavili test a hladiě α 0, o hypotéze H 0 : τ = τ 0 proti alterativě, že tomu tak eí V ásledující větě se eobejdeme bez těchto dvou obecých předpokladů: O Θ R m je parametrický prostor, který obsahuje takové eprázdé otevřeé okolí O, že skutečá hodota parametru θ áleží do tohoto okolí O O Necht θ, θ Θ Pak f V v; θ = f V v; θ [µ] sv platí právě tehdy, je-li θ = θ Abychom mohli odvodit asymptotické rozděleí testových statistik LM, W a LR za platosti H 0 : τ = τ 0, budeme potřebovat předpoklady A-A3: A Pro [µ] skoro všecha v, pro všecha θ O a pro všecha i, j, l {,, m} existuje derivace 3 f V v; θ θ i θ j θ l 5

A Pro všecha θ O a pro každé i, j {,, m} platí f ijv; θdµv = 0 M A3 Pro všecha i, j, l {,, m} existují fukce M ijl v 0 takové, že E θ M ijl V < a 3 log f V v; θ θ i θ j θ l M ijlv pro všecha θ O a [µ] skoro všecha v M Věta 7 Mějme áhodý výběr V = V,, V z rozděleí s hustotou f V v; θ vzhledem k σ-koečé míře µ Necht systém F m = {f V v; θ, θ Θ} je regulárí viz defiice 8 Necht jsou avíc splěy předpoklady O, O, A, A, A3 a avíc je Fisherova iformačí matice J θ spojitá ve skutečé hodotě parametru θ Jestliže, pak za platosti hypotézy H 0 : τ = τ 0 platí LM D χ q, W D χ q, LR D χ q Důkaz Důkaz je provede v Aděl 007 Záme tedy asymptotické rozděleí ašich statistik za platosti ulové hypotézy H 0 : τ = τ 0 Můžeme tedy sestavit testy a asymptotické hladiě výzamosti α 0, Tyto testy dosáhou ejvětší síly, pokud zvolíme kritický obor ve tvaru χ q α,, tedy když H 0 : τ = τ 0 zamítáme LM, W ebo LR χ q α Pozámka Několik pozámek k těmto testům a Test založeý a statistice LM se azývá skórový test, ale dříve se také používal ázev test založeý a Lagrageových multiplikátorech Výhodou tohoto testu je, že stačí zát maximálě věrohodý odhad za platosti ulové hypotézy Výpočet iverzí matice ebývá áročý, ebot řád této matice odpovídá dimezi q parametru τ a eí obvykle příliš velký b Test založeý a statistice W se azývá Waldův test Narozdíl od skórového testu evyžaduje ivertováí iformačí matice, ale a druhou strau vyžaduje maximálě věrohodý odhad bez předpokladu platosti ulové hypotézy, což může být výpočetě áročé c Test založeý a statistice LR 3 se azývá test založeý a věrohodostím poměru likelihood ratio test Teto test arozdíl od předchozích dvou evyžaduje zalost Fisherovy iformačí matice 6

Kapitola 3 Bartlettův test V Adělově učebici Aděl 007, str 0 je zavede model aalýzy rozptylu jedoduchého tříděí Základí myšlekou je, že máme k dispozici I ezávislých áhodých výběrů z ormálího rozděleí s obecě růzými středími hodotami a shodým rozptylem Na základě aalýzy rozptylu se potom odvozuje test o shodosti středích hodot Ovšem při tomto testováí je zásadí předpoklad shodosti rozptylů ve všech skupiách, který ovšem emusí být vždy splě Naším úkolem je tedy sestavit test, který by a hladiě α 0, zamítl ebo evyvrátil teto předpoklad homoskedasticity Uvažme tedy obecě ásledující model: Y ij = µ i + ε ij, ε ij N 0, σ i, i {,, I}, i, j {,, i }, 3 kde µ i R, σ i > 0, i {,, I} jsou ezámé parametry, I ám ozačuje počet skupi a := + + I Hypotéza homoskedasticity tedy odpovídá tomu, že σ = = σ I = σ Později si ukážeme, že se teto model dá chápat jako heteroskedastický lieárí model tak, jak jsme ho zavedli v podkapitole 3 Nejprve se sezámíme s postupem, který avrhl Bartlett ve svém čláku Bartlett 937 Ozačme výběrové rozptyly v jedotlivých skupiách symboly S i = i i j= Yij Y i, kde Y i = i Za odhad společé hodoty rozptylů σ se dá považovat statistika S = I i Yij Y i = j= j= Y ij i I S i Jedá se o vážeý průměr jedotlivých odhadů s vahami i / I Bartlettova testová statistika má potom tvar B = I log S i log Si c 3 = I log S i c I log S i, 7

kde kostata c je dáa vztahem c = + 3I i I Bartlett 937 odvodil, že statistika B má za platosti ulové hypotézy asymptoticky χ I rozděleí Vidíme, že statistika B je založea a porováváí logaritmu vážeého průměru odhadů rozptylu pro jedotlivá i s vážeým průměrem logaritmů těchto odhadů Tato statistika je tedy založea a pricipech věrohodostího poměru V ásledující části odvodíme a základě podkapitoly test založeý a testové statistice LR viz 3 Nicméě se ebude jedat přímo o Bartlettovu statistiku 3 Jejich podobost a asymptotické vlastosti budeme diskutovat a závěr této kapitoly podkapitola 3 3 Test založeý a věrohodostím poměru Náš model pojmeme obecěji, ež bylo uvedeo a začátku této kapitoly Nebudeme totiž předem předpokládat, do které skupiy je jaké pozorováí zařazeo Teto proces bude říze áhodým vektorem X Necht Y, X NLM X µ, σ X w Bud I I-složkový áhodý vektor X Mult I, p, kde p = p,, p I 0, I, je ezámý parametr, který splňuje I p i = Dále µ = µ,, µ I R I, σ > 0 a w = w,, w I 0, I jsou ezámé parametry až a w, o kterém předpokládejme, že platí w = za účelem idetifikace, viz předpoklad O Fukcí h ze zavedeí heteroskedastického modelu je zjevě h X; w = X w Uvědomme si, že áhodý vektor X může abývat je kaoických vektorů e i = δ ij I j=, i {,, I}, a to s pravděpodobostí pe i ; p = P X = e i = p i Potom X µ = µ i a X w = w i pro ějaké i {,, I} Tedy Y X = e i N µ i, σ w i Tedy áhodý vektor X ám určuje, do které z I skupi zařadit pozorováí Y Dále předpokládáme, že áhodá veličia Y se v i-té skupiě řídí ormálím rozděleím se středí hodotou µ i a rozptylem σ w i, což mimochodem zameá, že v prví skupiě je rozptyl právě σ Tedy připouštíme, že v každé skupiě může být díky váhovému parametru w růzý rozptyl Rozptyl ve všech skupiách bude stejý, pokud w = = w = = w I Chceme tedy odvodit test založeý a věrohodostím poměru o hypotéze H 0 : w = I proti alterativě H : w I 33 8

Postupujme tedy dle podkapitoly, ejprve se ovšem zaměřme a parametrický prostor tohoto modelu Parametr w bude cílovým parametrem až a w =, držíme-li se tedy začeí zavedeého v sekci, tak τ = w,, w I a τ 0 = I Rušivými parametry budou µ, σ, p Parametr p ovšem epochází přímo z otevřeé možiy, ebot je svazová podmíkou p + + p I = Defiujme si tedy P = { p,, p I 0, I : p + + p I < }, tato možia již otevřeá je Parametr p I potom lze a základě p,, p I určit jako p I = p + + p I Ozačme ψ = µ,, µ I, σ, p,, p I a θ = τ, ψ Parametrický prostor tedy bude Θ = 0, I R I 0, P, splňuje tak áš požadavek a otevřeost R a avíc skutečá hodota parametru θ musí ležet v ějakém otevřeém okolí O Dále at fy, x; θ začí hustotu áhodého vektoru Y, X vůči součiové míře λ ν, f Y X y x; w, µ, σ začí hustotu podmíěého rozděleí Y X vůči Lebesgueově míře λ a px; p začí hustotu áhodého vektoru X vzhledem ke sčítací míře ν Necht y R a x je ějaký kaoický vektor, potom pro každé θ Θ platí: f Y X y x; w, µ, σ y x = { πσ x w exp µ }, 34 σ x w Dále systém hustot px; p = I p x i i = p x p x I I, 35 fy, x; θ = f Y X y x; w, µ, σ px; p [λ ν] sv 36 F I +I++I = F 3I = {fy, x; θ, θ Θ} je regulárí defiice 8, což plye z vlastostí ormálího a multiomického rozděleí Uvažme áhodý výběr Y, X,, Y, X z rozděleí Y, X Pak N = N,, N I = X l Mult I, p a sdružeá hustota p X X; p vzhledem k součiové míře ν = ν ν áhodé matice X, která představuje áhodý výběr X,, X, je potom součiem hustot z rovice 35 Platí tedy l= p X X; p = l= p x l p x Il I = I p i i, 37 kde,, I jsou realizace áhodého vektoru N, pro které + + I = Předpokládejme, že i, i {,, I} Tedy i udává kolik pozorováí X l 9

z áhodého výběru abylo hodoty e i, eboli kolika veličiám Y l určilo X l jejich příslušost do skupiy i {,, I} Pro každé l {,, } určitě Y l spadá do ěkteré skupiy i {,, I} reprezetovaé hodotou áhodého vektoru X l Přezačme tedy veličiy Y l a veličiy Y ij, kde i {,, I} ozačuje příslušou skupiu a j {,, i } bude idex, pomocí kterého budu procházet veličiy ve skupiách Používáme tedy začeí shodé s tím, které jsme uvedli a začátku této kapitoly, viz 3 Zaved me si pro i {,, I} a průměr hodot Y ij v i-té skupiě Y i = i i j= Y ij a b reziduálí součet čtverců v i-té skupiě RSS i = i j= Yij Y i Tvrzeí 8 V modelu uvedeém výše za platosti H 0 : w = I statistika RSSi D LR = log RSS i i log χ I, Důkaz Ukážeme si, že statistika LR je statistikou pro test poměrem věrohodosti, viz 3 K tomu potřebujeme alézt maximálě věrohodé odhady parametrů µ, σ, w a p, a to jak za platosti ulové hypotézy H 0, tak bez platosti tohoto předpokladu Nakoec tyto odhady dosadíme do logaritmické věrohodosti l a odečteme vziklé výrazy Začěme tedy s určeím fukce l Sdružeou hustotu podmíěého rozděleí f Y X y X; w, µ, σ lze odvodit pomocí vzorce 34 a dostaeme f Y X y X; w, µ, σ = πσ Ozačme yí I w i i exp i { σ w i i l w, µ, σ = log f Y X Y X; w, µ, σ a l p = log p X X; p Pak logaritmováím výrazů 38 a 37 dostaeme l w, µ, σ = logπ log σ j= y ij µ i } 38 i log w i σ w i i j= Y ij µ i, 39 l p = i log p i 30 Směřujeme yí k logaritmické věrohodostí fukci lθ = log fy, X; θ Rozšířeím rovosti 36 a sdružeé hustoty dostáváme spolu s rovostmi 39 0

a 30 ásledující lθ = log fy, X; θ = l w, µ, σ + l p, [λ ν ] sv, lθ = logπ log i σ log w i σ w i i j= Y ij µ i + i log p i 3 Druhá rovost také platí je [λ ν ] skoro všude, ovšem od této chvíle si dovolíme teto dovětek adále epsat Nyí můžeme přistoupit k hledáí maximálě věrohodých odhadů Začěme s hledáím odhadů p a p Všimeme si, že parametr p eí ijak svázá s ostatími parametry, tedy platost ulové hypotézy se a ašich odhadech ijak eprojeví Ukáži kokrétě a výpočtech Jedá se ám v podstatě o maximalizaci fukce l za dodatečé podmíky p + +p I =, což vyřešíme metodou Lagrageových multiplikátorů Defiujme si pomocou fukci gp, λ jako gp, λ = i log p i λ p i Potom spočtěme derivace podle proměých λ a p i, i {,, I} gp, λ λ gp, λ p i = p i, = i p i λ, i {,, I} Položíme-li tyto derivace rovy ule, tak pro každé i {,, I} dostáváme, že musí platit λ = i p i, tedy také p i = i Potom musí také dle prví rovosti platit λ = i λ = + + I λ = λ Tím tedy dostáváme λ = a také odhady p = p =,, I 3 U ostatích parametrů budeme opravdu muset rozlišit případy, kdy ulová hypotéza 33 platí a kdy e Začěme s jedodušším případem, tedy s tím, když tato hypotéza platí Pak tedy víme, že w = = w = = w I a proto má fukce l z 3 tvar lτ 0, ψ = logπ log σ σ i Y ij µ i + j= i log p i

Spočtěme tedy derivace podle proměých µ a σ podle p už emusíme: lτ 0, ψ µ i = σ lτ 0, ψ σ i j= = σ + σ 4 Y ij µ i, i {,, I}, 33 i Y ij µ i 34 Pokud položíme výraz 33 rove ule, tak pro každé i {,, I} dostaeme odhady µ = Y j,, I Y Ij = Y,, Y I 35 I j= Dále pokud položíme výraz 34 rove ule a dosadíme odhad µ, obdržíme σ = j= j= j= i Yij Y i = RSS i 36 Získali jsme tedy maximálě věrohodé odhady za platosti ulové hypotézy Dále pokračujme alezeím takových odhadů bez tohoto předpokladu Postupujme zcela obdobě Fukce l má tedy tvar lθ = logπ log σ Derivováím této fukce dostáváme lθ µ i = σ w i lθ σ lθ w i i j= = σ + σ 4 = i w i + σ w i i log w i σ w i i j= Y ij µ i + i log p i Y ij µ i, i {,, I}, 37 i w i j= i Y ij µ i, 38 Y ij µ i, i {,, I} 39 j= Položíme-li výraz 37 rove ule, tak dostaeme te samý odhad pro µ jako v předešlém případě, tedy odhad µ = µ, viz 35 Jelikož předpokládáme zalost w =, tak můžeme položit ŵ = Rovice 39 pro i = je tedy adbytečá Ovšem vyjdeme-li z í, tak dostaeme σ = RSS Yj Y = j= Potom ze vztahu 39 pro každé i {,, I} dostaeme, že musí platit i Yij Y i, i ŵ i = σ j=

tedy jedoduchou úpravou dostáváme, že platí Odtud bychom dostali, že ŵ i j= σ ŵ i = RSS i i, i {,, I} 30 ŵ i = RSS i RSS i, i {,, I} Zbývá ověřit, že takové odhady také ulují výraz 38, aby byla splěa celá soustava věrohodostích rovic Jelikož i RSS i i Yij Y i = = RSS ŵ i tak dostáváme, že opravdu + σ σ 4 ŵ i i j= = RSS + + I = RSS = σ, Yij Y i = + σ σ σ 4 = 0 Nyí již jsme schopi určit testovou statistiku LR = l θ l θ Díky výše uvedeým vzorcům 3, 35, 36 a 30 platí: l θ = logπ log i σ log ŵ i RSS i + l σ p ŵ i = logπ i log σ ŵ RSS i i + l σ p ŵ i = logπ i log RSSi i RSS i + l p i RSS i = logπ i log RSSi + l p, l θ = logπ log σ RSS σ i + l p = logπ log RSS i + l p Nyí si už je uvědomíme, že jsme odvodili, že p = p, viz 3, a odečteme dvojásobek výrazů výše, čímž dostaeme statistiku RSSi LR = log RSS i i log i [ ] 3 i = log RSS i log RSSi i 3 i

Vidíme tedy, že aše testová statistika je založeá a rozdílu logaritmu celkového reziduálího součtu čtverců děleého a součtu vážeých logaritmů reziduálích součtů čtverců děleých i v rámci i-té skupiy Zbývá ověřit předpoklady věty 7, které, jak víme, platí pro ormálí i multiomické rozděleí Proto již eí těžké odvodit, že jsou splěy i v tomto modelu Podle věty 7 má tedy aše statistika asymptotické rozděleí chí kvadrát o takovém počtu stupňů volosti, kolik bylo cílových parametrů Jelikož jsme předpokládali zalost w =, tak mluvíme je o zbylých w,, w I Tedy počet stupňů volosti je I Celkově tedy LR D χ I, Vidíme, že výsledá statistika LR viz 3 je velmi podobá statistice B viz 3, dokoce mají i stejé asymptotické rozděleí za platosti ulové hypotézy Náš test tedy pro obě statistiky zamíte a asymptotické hladiě výzamosti α 0, hypotézu H 0 : w = w = = w I = právě tehdy, když realizovaá hodota statistiky B ebo LR převýší χ I α Jak moc se ale použití statistik B a LR liší, shreme v ásledující podkapitole 3 Porováí testových statistik Nejprve se podívejme, v čem si jsou statistiky 3 a 3 podobé Uvědomme si, že statistika B se také sestává z jedotlivých RSS i, i {,, I} Jedotlivé odhady rozptylu v i-té skupiě, kde i {,, I}, vypadají takto: S i = RSS i i, σ ŵ i = RSS i i Liší se tedy je ve jmeovateli, kde v prvím případě se RSS i dělí počtem stupňů volosti i, kdežto v té druhé je počtem pozorováí v i-té skupiě Celkové odhady jsou potom také podobého tvaru S = I RSS i, σ = RSS i Ještě jedou uvádím statistiky, aby byl vidět jejich rozdíl: [ ] i LR = log RSS i log RSSi, i [ B = I ] i log RSS i c I I log RSSi, i kde c = + 3I i I 3 Bartlettova statistika tedy používá počty stupňů volosti amísto počtu pozorováí a avíc je poděleá kostatou c, která zpravidla bývá je epatrě větší ež 4

Všechy tyto úpravy způsobují, že statistika B má lepší asymptotické vlastosti ež LR, proto se také a rozdíl od LR v praxi používá k testováí homoskedasticity Toto tvrzeí prozkoumáme dále v umerických simulacích v kapitole 5 Jak již bylo řečeo, statistika B má za platosti ulové hypotézy asymptoticky rozděleí χ I Udává se, že tato vlastost lze použít k testováí, pokud platí i 7, i {,, I} Teto Bartlettův test se zdá být při splěí předpokladu ormality tím ejsilějším z dostupých testů Ovšem je velmi citlivý a porušeí předpokladu o ormálím rozděleí Existují proto i další možé modifikace uvedeé apříklad v Zvára 008, str 0 5

Kapitola 4 Breusch-Pagaův test Uvažme yí ásledující ormálí heteroskedastický lieárí model Y, X NLM X β, σ exp Z τ, kde β = β 0,, β k R k+, σ > 0 a τ = τ,,τ q R q jsou ezámé parametry a k N 0, q N Dále vektor Z je ějakou zámou trasformací vektoru X, tedy Z = gx pro zámou fukci g : R k+ R q Lze také místo exp Z τ uvažovat obecě ějakou diferecovatelou kladou reálou fukci h od skalárího součiu Z τ s vlastostí h0 =, zde volíme h = exp pro jedoduchost Mějme k dispozici áhodý výběr Y, X,, Y, X z rozděleí Y, X Na základě tohoto áhodého výběru máme sestavit test o homoskedasticitě Jak je vidět z aší parametrizace, tak toto astává, pokud τ = 0 q Jak už jsme ospravedlili v sekci, lze pracovat je s podmíěým rozděleím Y X, které je dle předpokladu ormálí Předpokládejme tedy, že X = x x = x 0,, x k, Z = z z = gx gx = z,, z q jsou matice reálých kostat s plou sloupcovou hodostí Dále ozačme Wτ = diag w τ,, w τ = diag exp z τ,, exp z τ Vzhledem k ašemu předpokladu má áhodý vektor Y = Y,, Y při pevých X a Z rozděleí Y N Xβ, σ Wτ 4 Chceme tedy odvodit test pro ásledující hypotézu H 0 : τ = 0 q proti alterativě H : τ 0 q 4 Jelikož máme ezámé parametry τ, σ a β a chceme se věovat testováí τ, tak použijeme teorie testů s rušivými parametry uvedeé v podkapitole Ozačme θ = τ, σ, β, příslušý parametrický prostor je tedy Θ = R q 0, R k+ 6

Rušivé parametry tedy budou ψ = σ, β 0,, β k a cílovým parametrem bude τ Naším cílem bude odvodit skórový test založeý a testové statistice LM Bud te A = I, σ = RSS, v = u σ u σ kde u je vektor reziduí, RSS je reziduálí součet čtverců a začí -složkový sloupcový vektor =,,,, Tvrzeí 9 V modelu popsaém výše za platosti H 0 : τ = 0 q statistika LM = σ v Z Z AZ Z v D χ q, Důkaz Potřebujeme tedy alézt Fisherovu iformačí matici a její iverzi, dále maximálě věrohodé odhady β a σ za platosti ulové hypotézy 4 a ověřit předpoklady věty 7 Začěme se sdružeou hustotou f y X; θ vektoru Y při daé realizaci X vzhledem k Lebesgueově míře λ Platí { π f y X; θ = det σ Wτ exp } W τ y Xβ y Xβ σ { yi x i β } = = σ π w i τ exp π { } exp σ exp z i τ { σ w i τ yi x i β } σ exp zi τ Prví rovost je zřejmá z vlastosti ašeho modelu 4 a defiice mohorozměrého ormálího rozděleí Druhá rovost plye z diagoality matice σ Wτ, ebot pak její determiat je je souči prvků a diagoále a iverzí matice má a diagoále je převráceé prvky Třetí rovost ám plye z vlastosti prvků w i τ a expoeciály Uvědomíme si, že systém hustot F q+k+ = {fy X; θ, θ Θ} je regulárí, viz defiice 8 Všechy parametry pocházejí z ějakého otevřeého itervalu v parametrickém prostoru Θ Navíc M = {y R : fy X; θ > 0} ezávisí a parametru θ Díky vlastostem ormálího rozděleí jsou také splěy všechy ostatí předpoklady a také předpoklad z věty 5, tedy lze Fisherovu iformačí matici počítat pomocí středí hodoty z druhých parciálích derivací logaritmické věrohodosti l Dále tedy budeme pracovat s přirozeým logaritmem hustoty Platí lθ = log f Y X; θ = logπσ z i τ σ Yi x i β expzi τ 7

Dalším krokem je spočteí všech derivací podle ezámých parametrů lθ = z im + Yi x i β τ m σ expz i τ z im, m {,, q}, 43 lθ = σ σ + Yi x i β σ 4 expz i τ, 44 lθ = x ij Yi x i β β j σ expzi τ, j {0,, k} 45 Dále si můžeme vyřešit soustavu věrohodostích rovic a alézt si tak maximálě věrohodé odhady Ovšem pro aše potřeby stačí je alézt odhady σ a β za platosti ulové hypotézy 4 Takže položíme výrazy z rovic 44 a 45 rovy ule, dále položíme τ = 0 q a alezeme odhady σ a β V soustavě věrohodostích rovic tedy platí σ j {0,, k} : Y i x i β = σ σ = Y i x i β x ij Y i x i β = 0 j : x j Y X β = 0 X Y X β = 0 k+ X X β = X Y β = X X X Y Zavedeme-li si podobě jako v sekci vektor Ỹ = X β, dostaeme odhady tvaru β = X X X Y a σ = RSS Y i Ỹi = 46 jako v klasickém modelu Y N Xβ, σ I Pokračujme dále ve výpočtech druhých derivací fukce l Dostáváme lθ = Yi x i β τ m τ m σ expz i τ z im z im, m, m {,, q}, lθ σ = σ Yi x i β 4 σ 6 expz i τ, lθ = x ij x ij β j β j σ expzi τ, j, j {0,, k}, lθ σ β j = σ 4 lθ = σ τ m σ 4 lθ = β j τ m σ x ij Yi x i β expzi τ, j {0,, k}, Yi x i β expz i τ z im, m {,, q}, x ij Yi x i β expzi τ z im, j {0,, k}, m {,, q} 8

Využijme tedy těchto druhých derivací k tomu, abychom podle věty 5 spočetli Fisherovu iformačí matici za platosti aší hypotézy 4 Přičemž teto předpoklad je v aší parametrizaci utý je u jedé rovosti, proto jsem ad ou rovost uvedl symbol H 0 Připomeu-li, že E Y i = x i β a var Y i = σ expz i τ, tak sado dostaeme, že [ E lθ τ m τ m [ E lθ σ [ E lθ β j β j [ E lθ σ β j [ E lθ σ τ m [ E lθ β j τ m ] ] = σ var Y i expzi τ z im z im = = σ 4 + σ 6 ] = σ z im z im = z m z m, var Y i expzi τ = σ + σ = 4 σ 6 σ, 4 x ij x ij expz i τ H 0 = x j x j σ, ] = x ij E Y i x i β σ 4 expz i τ = 0, ] = var Y i σ 4 expzi τ z im = σ ] = σ x ij E Y i x i β expzi τ z im = 0 z im = z m σ, Nyí již máme vše potřebé pro sestaveí Fisherovy iformačí matice Bude to matice řádu q + + k +, kterou zapíšu blokově tak, aby cílový parametr τ byl v levém horím rohu Matice má tedy tvar Z Z Z J τ, σ, β H = 0 Z σ σ σ 4 O q k+ 0 k+ O k+ q 0 k+ X X σ 47 Matici 47 si rozdělme a bloky a používejme dále začeí zavedeé v lemmatu 6 V ašem případě máme takovouto situaci: J = Z Z Z, J = O q k+, σ J Z 0 k+ = σ, J O k+ q = σ 4 0 k+ X X σ Povšimeme si, že díky ašim předpokladům o plých sloupcových hodostech matic X a Z jsou matice Z Z a X X regulárí, a tedy jsou regulárí i J a J Pro odvozeí testové statistiky budeme potřebovat J a ásledě pracovat s její iverzí maticí Pokračujme tedy určeím této matice Využijeme přitom blokové diagoality matice J, kterou zivertujeme po blocích a tuto matici lze aplikovat lemma 6 9

Postupými úpravami dostáváme J = J J = Z Z = Z Z J Z σ Z σ J σ4 O q k+ Z σ = Z I Z = Z AZ σ 4 0 k+ 0 k+ σ X X Z σ O k+ q Je zřejmé, že matice A, kterou jsme si zavedli již před tvrzeím 9, je symetrická A = A a idempotetí A = A Ozačme dále U τ, σ, β vektor parciálích derivací fukce l podle cílových proměých τ Platí U τ, σ, β = lτ, σ, β τ lτ, σ, β τ q 43 = H 0 σ σ [ Yi x i β ] σ [ Yi x i β σ ] z i z iq Nás bude dle zajímat hodota tohoto vektoru pro τ = 0 q věrohodé odhady σ a β, což dle 46 dává U 0 q, σ, β = σ σ u i σ z i, u i σ z iq a maximálě kde u i = Y i x i β = Y i x i X X X Y = Y i Ỹi, i {,, } jsou rezidua tvořící dohromady vektor u Připomeňme, že druhá mocia eukleidovské ormy tohoto vektoru je právě reziduálí součet čtverců, eboli RSS = u Vektor U lze dále upravit do jedoduššího tvaru Ukážeme si dva možé způsoby, jak se a toto dívat V prvím případě si defiujme vektor v ásledově v i := u i σ = u i RSS = j= u i u j, i {,, } Vidíme, že i-tá složka vektoru v je průměr rozdílů čtverce rezidua u i se všemi ostatími Pak lze vektor U zapsat jako U 0 q, σ, β = σ σ v i z i = σ v i z iq σ 30 z v z qv = Z v σ = Z v RSS 48

Druhá možost je defiovat si pomocé veličiy z m := z im = z m, m {,, q}, které dohromady tvoří sloupcový vektor z = Z Potom platí u i σ zim = = u i z im RSS u i z im RSSz m = A tedy se potom dá vektor U zapsat jako U 0 q, σ, β = σ z im u i z im z m u i z i z 49 Pomocí těchto průměrů z m lze také upravit aši matici J, a to do tvaru J = Z AZ = Z z Z z 40 O platosti této rovosti se jedoduše přesvědčíme pomocí ásledujících úprav: Z z Z z = = Z Z Z Z Z Z Z Z = AZ AZ = Z A Z = Z AZ Nyí už si můžeme defiovat testovou statistiku LM podle ásledově LM := [U 0 q, σ, β ] [ J 0 q, σ, β ] U 0 q, σ, β Zde použijeme ašich úvah výše, abychom viděli, jak testová statistika LM vypadá Kombiací dvojic rovic 48, 40 a 49, 40 dostaeme, že LM má tvar Z v Z v LM = σ Z AZ = σ σ v Z Z AZ Z v = σ [ ] [ [ Z u i z i z z Z z ] ] u i z i z 4 Zbývá už je ověřit předpoklady věty 7 Už víme, že systém hustot F q+k+ je regulárí a že skutečá hodota parametrů leží v ějakém otevřeém itervalu obsažeém v Θ Dále je vzhledem k aší parametrizaci splě předpoklad O z vlastosti hustoty ormálího rozděleí Existece třetích derivací A plye 3

jedoduše dalším derivováím druhých derivací fukce l, v čemž ám ic ebráí Předpoklad A jsme již oprávěě používali při výpočtu Fisherovy iformačí matice Předpoklad A3 plye opět z vlastosti ormálího rozděleí Z rovosti 47 plye, že Fisherova matice je spojitá v každém θ Θ, tedy i ve skutečé hodotě tohoto parametru Tím jsme již ověřili předpoklady Věta 7 mi tedy dává, že za platosti ulové hypotézy H 0 : τ = 0 q platí LM D χ q,, 4 kde počet stupňů volosti q odpovídá počtu cílových parametrů Náš skórový test tedy a asymptotické hladiě výzamosti α 0, zamíte hypotézu H 0 právě tehdy, když LM χ q α Teto test avrhli v roce 979 Breusch a Paga ve svém čláku Breusch a Paga 979 Ukázalo se ovšem, že teto test je velmi citlivý a porušeí předpokladu ormálího rozděleí Proto o dva roky později avrhl Koeker v čláku Koeker 98 úpravu, která tuto testovou statistiku studetizovala, takže se dá použít v případě, že si ejsme jisti s platostí předpokladu ormality Úprava spočívá v tom, že v testové statistice LM = σ v Z Z AZ Z v ahradíme σ odhadem rozptylu veliči ε i pomocí ϕ = u i σ = v i = v 3

Kapitola 5 Numerické studie V této kapitole se a základě počítačových simulací v prostředí R R Core Team, 06 podíváme, jaké vlastosti mají testy odvozeé v kapitolách 3 a 4 v závislosti a rozsahu áhodého výběru a a splěí předpokladu ormality Veškeré testy budeme provádět a asymptotické hladiě 5 % 5 Experimetálí porováí statistik B a LR V této části se vrátíme zpět k testům homoskedasticity v modelu aalýzy rozptylu jedoduchého tříděí s obecě růzými rozptyly v jedotlivých skupiách uvedeým v kapitole 3, které byly založey a dvojici statistik LR = [ log B = I c [ log RSS i I kde c = + i log RSS i 3I ] RSSi, i i I log i I ] RSSi, i Obě statistiky by se při dostatečě velkém měly řídit rozděleím χ I, kde I je počet skupi Na kokrétím příkladě tedy prozkoumáme, jak velké je zapotřebí, abychom toto mohli tvrdit Dále se podíváme, zda testy založeé a těchto statistikách dodržují předepsaou hladiu Nakoec prozkoumáme jejich schopost rozpozat eplatou hypotézu, tedy experimetálě prozkoumáme jejich sílu U těchto testů ebudeme zkoumat jejich chováí při esplěí předpokladu ormality Naše simulace provedeme vždy pro I = 5 skupi V podkapitole 3 jsme zavedli model tak, že přiřazováí apozorovaých hodot veličiy Y do skupi probíhá áhodě Regresor určující příslušost do skupiy je geerová z rozděleí Mult 5, p, kde p si astavíme a hodoty p = 5, 5, 3 5, 4 5, 5 5 Pro výpočet statistiky B musíme zajistit, aby v každé skupiě byly alespoň dvě pozorováí 33

06 04 Chí kvadrát s df=4 B LR 00 0 Fx 08 0 Nejprve zac eme s pr ı padem, kdy je hypote za homoskedasticity plata Vs echa pozorova ı y tedy budeme geerovat z orma lı ho rozde leı se stejou hodotou rozptylu σ = Str edı hodoty v jedotlivy ch skupia ch astavı me a ru ze hodoty, v tomto pr ı pade astavı me a hodoty µ =, 0,,, 3> Da le si urc ı me jedotlive rozsahy vy be ru 5, pro ktere budeme chtı t geerovat data Pro kaz de takove potom 0 000-kra t asimulujeme a hody vy be r z tohoto rozde leı Pro jedotlivou simulaci apoc ı ta me hodoty testovy ch sta tistik B a LR a podı va me se, zda pr ekroc ily kritickou hodotu χ4 095 = 94877 Statistiku LR spoc teme jedodus e z as eho vzorce 3, a vy poc et statistiky B lze pouz ı t fukce bartletttest z balı c ku stats Nas e simulace provedeme pro {0, 30, 50, 80, 00, 00, 400} Vy sledky experimetu jsou shruty a obra zku 5 a v tabulce 5 Obra zek 5 se zame r uje a zjis te ı skutec e ho rozde leı jedotlivy ch statistik za ulove hypote zy Mu z eme si vs imout, z e empiricka distribuc ı fukce pro statistiku B se te me r pr ekry va s distribuc ı fukcı rozde leı χ4, a to uz i pro = 0 Na druhou strau je vide t, z e empiricka distribuc ı fukce statistiky LR se pro ı zke hodoty vy raze odlis uje od distribuc ı fukce rozde leı χ4, ale s rostoucı m se k te to fukci blı z ı a pr i = 400 uz s ı take sply va Tabulka 5 uva dı, jaky byl podı l zamı tutı ulove hypote zy v 0 000 opakova ı ch pr i jedotlivy ch rozsazı ch Vidı me, z e Bartlettova statistika uz pr i = 30 hladiy 005 te me r dosa hla Na druhou strau statistika LR zamı tala pro ı zka daleko c aste ji a hladie 005 se pr iblı z ila az pro = 400 0 5 0 5 0 5 x Obra zek 5: Grafy empiricky ch distribuc ı ch fukcı statistik B a LR za platosti hypote zy pr i rostoucı m rozsahu vy be ru 34