Heteroskedasticita. Vysoká škola ekonomická Praha. Fakulta informatiky a statistiky. Katedra statistiky a pravděpodobnosti

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "Heteroskedasticita. Vysoká škola ekonomická Praha. Fakulta informatiky a statistiky. Katedra statistiky a pravděpodobnosti"

Transkript

1 Vysoká škola ekonomická Praha Fakulta informatiky a statistiky Katedra statistiky a pravděpodobnosti Hlavní specializace : Statisticko-pojistné inženýrství Název diplomové práce: Heteroskedasticita školní rok : Diplomovou práci zpracoval : Petr SOUKAL Vedoucí diplomové práce: Prof. Ing. Petr HEBÁK, CSc. - -

2 Prohlašuji, že předkládanou diplomovou práci jsem zpracoval samostatně a všechny prameny a literaturu jsem uvedl v seznamu. V Praze dne. dubna podpis - -

3 Děkuji vedoucímu diplomové práce panu prof. Ing. Petru Hebákovi, CSc. za cenné připomínky

4 OBSAH strana Úvod... Klasický lineární regresní model Metoda nejmenších čtverců Odhad rozptylu náhodné složky Ověřování významnosti lineárního regresního modelu t-testy Celkový F-test Zobecněný lineární model Zobecněný lineární regresní model MZNČ Odhad matice W Metoda maximální věrohodnosti Heteroskedasticita Co je heteroskedasticita a jaké jsou její příčiny Vážená metoda nejmenších čtverců Odhadování parametrů lineárního modelu Matice W, popř. Ω je známa Rozptyly σ i nejsou známy Odhad σ i bez apriorních předpokladů Konstantní rozptyly v rámci podskupiny pozorování Směr. odchylky σ i jsou funkcí vysvětlujících proměnných Rozptyly σ i jsou lin. funkcí vysvětlujících proměnných Rozptyly σ i jsou funkcí střední hodnoty Multiplikativní heteroskedasticita Testování heteroskedasticity Konstruktivní testy Směr. odch. σ i jsou lin. funkcí vysvětlujících proměnných Rozptyly σ i jsou lin. funkcí vysvětlujících proměnných Multiplikativní heteroskedasticita Glejserův test Parkův test Nekonstruktivní testy

5 6.. Spearmanův test korelace pořadí Goldfeld-Quandtův parametrický test Goldfeld-Quandtův neparametrický test Breusch-Paganův test Bartlettův test BAMSET F test užívající BLUS rezidua F test užívající rekurzivní rezidua Závěr k testování Experimenty Experiment I Experiment II Experiment III Experiment IV Experiment V Experiment VI Experiment VII Experiment VIII Experiment IX Experiment X Výsledky experimentů Závěr... 7 Literatura Příloha Úvod - 5 -

6 Obsahem mé diplomové práce je heteroskedasticita v lineárním regresním modelu, problémy s ní spojené, možnosti její redukce a testování. Na následujících řádcích se pokusím tento pojem jednoduše nastínit. Standardní metody jednoduché a vícenásobné regrese předpokládají mimo jiné i předpoklad homoskedasticity (tj. podmínky, že všechna podmíněná rozdělení závisle proměnné Y mají stejnou směrodatnou odchylku (rozptyl)). Podrobně se těmito otázkami budu zabývat v kapitole. Pokud se testuje významnost parametrů regresní funkce, tak právě toto testování velmi výrazně závisí na splnění předpokladu homoskedasticity. Jinými slovy předpokladem homoskedasticity se rozumí, že rozptyl každé náhodné složky ε i kolem její nulové střední hodnoty nezávisí na hodnotách X. Rozptyl každého ε i zůstává pořád stejný bez ohledu na velké či malé hodnoty vysvětlující proměnné X. není funkcí Xj, neboli σ i je různé od f(x ). Příklad homoskedasticity v grafickém provedení je uveden na obrázku. σ ij Pokud σ není konstantní, ale jeho hodnoty záleží na hodnotách X je možno psát σ i = f(x ). Na následujících třech obrázcích jsou zobrazeny tři rozdílné formy heteroskedasticity ij ij (nepřítomnosti homoskedasticity). Rozložení pozorování na obrázcích záleží na formě heteroskedasticity (vztahu σ i a x ). Na obrázku na následující straně je zachycen případ monotonně vzrůstajícího rozptylu ε i, jak vzrůstají hodnoty X, vzrůstá i rozptyl ε. Je to nejběžnější forma heteroskedasticity, která se uvažuje v regresních modelech

7 Obrázek 3 ukazuje model klesající heteroskedasticity. Jak vzrůstají hodnoty X odchylky pozorování od regresní přímky klesají. Což znamená, že rozptyl náhodné složky se mění opačným směrem než vysvětlující proměnná (-é). Konečně na obrázku 4 na následující straně je zobrazena komplikovanější forma heteroskedasticity. Nejdříve rozptyl náhodné složky klesá s růstem hodnot X, ale po určité hodnotě x*, rozptyl ε vzrůstá s X

8 Z předcházejícího textu by mělo být jasné, že model heteroskedasticity záleží na znaméncích a parametrech vztahu σ i = f(x ). Pokud ovšem ε nelze pozorovat (v realitě vždy), ij i pak skutečný model heteroskedasticity není znám. V praxi se někdy například provádí předpoklad, že heteroskedasticita je ve formě σ i = k x ij, kde k je parametr. V realitě v mnoha konkrétních aplikacích se dá usuzovat na nedodržení předpokladu konstantního rozptylu náhodné složky. Jeden z důvodů je, že mnoho proměnných nezařazených do regresní funkce má většinou tendenci měnit se tím samým směrem jako proměnná X, čímž tedy způsobuje růst rozptylu pozorování kolem regresní přímky. Pro pochopení uvádím tři následující příklady. Příklad Předpokládejme, že máme vzorek dat rozpočtů domácností, ze kterých chceme měřit úsporovou funkci domácností: S i = β + β Y i + ε i, S i...úspory i-té domácnosti Y i...příjem i-té domácnosti. V tomto případě předpoklad konstantního rozptylu náhodných složek není vhodný, protože domácnosti s vyššími příjmy budou vykazovat mnohem vyšší variabilitu v jejich úsporovém chování, než vykazují domácnosti s nižšími příjmy. Ekonomická teorie ukazuje, že domácnosti s vyššími příjmy mají tendenci si udržet jistý životní standard a pokud jejich příjem poklesne, raději zredukují svoje úspory než spotřební výdaje. Naopak domácnosti s nižšími příjmy spoří s určitým záměrem (např. za účelem běžných měsíčních splátek nebo za účelem splácení dluhů) a tak jsou jejich úsporové modely přesnější. Z toho je patrné, že u domácností s vyššími příjmy bude ε i vysoké, zatímco u domácností s nízkými příjmy bude ε i malé. Předpoklad konstantního rozptylu ε tedy v případě odhadování úsporové funkce z průřezových dat rodinných rozpočtů není dodržen

9 Příklad Uvažujme vzorek firem určitého odvětví, který bude použitý za účelem odhadnutí Cobb-Douglasovy produkční funkce: y = β Lβ β K 3ε, L... množství práce firmy K... množství kapitálu firmy. ε v tomto případě zahrnuje faktory jako podnikavost, technologické rozdíly strojního zařízení, rozdíly v organizačních dovednostech a další faktory. V ε zahrnuté faktory se příliš významně nemění u malých firem. Naopak u velkých firem se dá očekávat, že se budou měnit podstatně více. Proto ε bude heteroskedastické. Příklad 3 Předpokládejme, že ekonomickou jednotkou je firma a že máme zájem odhadnout nákladovou funkci v daném odvětví. Ze vzorku firem použijeme údaje o jejich nákladech a outputu a budeme uvažovat model například ve tvaru y i = β + β x i + β 3 x i + ε i y i... průměrné náklady i-té firmy x i... output i-té firmy. Tato funkce je vhodná, pokud očekáváme průměrnou nákladovou funkci ve tvaru U. I v tomto případě je důvod se domnívat, že pokud output nabývá vyšších hodnot, tak jednotlivé hodnoty pozorování průměrných nákladů budou mít tendenci mnohem více kolísat kolem střední hodnoty, než když je output firmy malý. Jinými slovy hodnoty náhodné složky ε i budou pravděpodobně malé pro nízké hodnoty outputu a velké pro velké hodnoty outputu. Závěrem se dá říci, že v praxi jsou někdy a priori důvody věřit v porušení předpokladu homoskedasticity. Proto je poměrně důležité se zabývat důsledky heteroskedasticity na odhady parametrů a jejich směrodatných chyb. Používané testy významnosti regresních parametrů mohou vlivem heteroskedasticity dospět k chybným závěrům. Poznámka V následujícím textu se budu snažit dodržovat následující značení: X... matice n pozorování k vysvětlujících proměnných (včetně X jednotková proměnná) X j... j-tá vysvětlující proměnná, pokud X tak je to vysvětlující proměnná X x ij... i-tá hodnota j-té vysvětlující proměnné x i... i-té pozorování všech proměnných X j Y... vysvětlovaná proměnná y i... i-té pozorování vysvětlované proměnné Y y... vektor pozorování proměnné Y ε... náhodná složka (proměnná) ε i... i-tá hodnota náhodné složky ε... vektor náhodných složek

10 Klasický lineární model Klasický lineární model vyjadřuje explicitně lineární závislost jedné vysvětlované závislé proměnné na řadě vysvětlujících nezávisle proměnných a na aditivní náhodné složce. Jedná se tedy o lineární stochastický model, který se může vyjádřit např. ve tvaru Y = ΣX j β j + ε, (.) kde Y je vysvětlovaná proměnná X j... j-tá vysvětlující proměnná ε... náhodná či stochastická složka β j... j-tý parametr. Rovnici (.) lze také psát jako Y = xβ + ε, (.) x je řádkový vektor k vysvětlujících proměnných, včetně jednotkového vektoru členu, β je sloupcový vektor k parametrů, jehož první složka představuje absolutní člen rovnice (.). Odhadnuté parametry tohoto modelu vyjadřují kvantitativně vliv změny jednotlivé vysvětlující proměnné na hodnotu vysvětlované proměnné za předpokladu, že ostatní vysvětlující proměnné se nemění. k bude značit počet parametrů modelu. Označí-li se b j jako odhadnutá hodnota j-tého parametru, pak b j = Y, j =,,..., k, (.3) X j je odhadem intenzity separovaného působení j-té vysvětlující proměnné na Y. Protože odhad parametrů modelu je možný pouze na základě statistických dat, tj. pozorování jednotlivých proměnných, která jsou zpravidla představována konečným výběrem n hodnot vysvětlované proměnné a všech vysvětlujících proměnných, je možné základní lineární model (.) zapsat ve tvaru y = Xβ + ε (.4) nebo jako - 0 -

11 y x x... xk ε y x x... x k = ε β + (.5) y n xn xn... xnk ε n kde y je vektor napozorovaných hodnot vysvětlované závisle proměnné X... matice pozorování vysvětlujících nezávisle proměnných, ε... vektor nepozorovatelné náhodné složky modelu v každém z n pozorování, n... rozsah výběru. Z toho vyplývá, že každý z n řádků matice X je množinou hodnot všech vysvětlujících proměnných v jednom pozorování, zatímco každý z k sloupců této matice představuje množinu všech napozorovaných hodnot jedné vysvětlující proměnné, přičemž první vysvětlující proměnná nabývá ve všech pozorováních stejné hodnoty a to jedna. Rozdíl mezi počtem pozorování n a počtem parametrů k se nazývá počet stupňů volnosti, přičemž musí platit, že n je větší než k. Pro klasický lineární regresní model mají být splněny následující požadavky: ) E(ε i ) = 0 pro každé i =,,..., n, takže vektorově E(ε) = 0 n. Vektor ε je náhodný s nulovou střední hodnotou. Neuvažované vlivy systematickým způsobem nezkreslují regresní odhady. Z toho vyplývá, že vektor y je rovněž náhodný a je určen regresní funkcí Xβ a náhodným vektorem ε. ) D(ε i ) = σ pro každé i =,,..., n ( σ je neznámá kladná konstanta), C(ε i,ε i ) = 0 pro každé i i =,,..., n. Spojením obou podmínek se dostane C(ε) = σ In. První část podmínky je tzv. homoskedasticita. Tato část se týká rozptylů náhodné složky a vyjadřuje, že variabilita ε, ε,...,ε n nezávisí na hodnotách vysvětlujících proměnných. Z toho vyplývá, že i podmíněné rozptyly Y jsou nezávislé na hodnotách vysvětlujících proměnných a rovnají se stochastickému parametru tj. neznámé kladné konstantě matice C(ε) představují konečné a konstantní rozptyly náhodné složky. σ. Prvky na diagonále Druhá část podmínky se týká kovariancí různých dvou dvojic náhodných veličin ε i a ε i pro každé i i =,,..., n. Vyjadřuje podmínku nekorelovanosti různých dvojic pozorování vysvětlované proměnné Y. Nediagonální prvky C(ε) jsou nulové. - -

12 3) X je nestochastická matice. Vysvětlující proměnné jsou nenáhodné. Jsou pod kontrolou experimentátora, nezávisí tedy na výsledku provedených pokusů. Při opakovaných výběrech by pozorování vysvětlujících proměnných nabývala stejných hodnot, jediným zdrojem variability Y v různých výběrech je tedy pouze měnlivost vektoru náhodných složek. Matice X je tedy nenáhodná. 4) Matice X má hodnost h(x) = k, kde n k. Ke splnění této podmínky je třeba, aby mezi vysvětlujícími proměnnými nebyla funkční (lineární) závislost. Matice X nesmí obsahovat perfektně lineárně závislé sloupce, aby soustava normálních rovnic (.5) byla jednoznačně řešitelná. Splnění této podmínky znamená, že X X je symetrická nesingulární matice řádu k, takže existuje k ní jednoznačná inverzní (X X) -, která hraje klíčovou roli při odhadu parametrů modelu metodou nejmenších čtverců. Zároveň je třeba, aby počet pozorování nebyl menší než počet neznámých parametrů. V praxi je užitečné, aby počet pozorování n byl výrazně vyšší než počet neznámých parametrů k. K určení odhadových funkcí parametrů lineárního regresního modelu (.4) metodou nejmenších čtverců není třeba předpokládat žádné konkrétní rozdělení pravděpodobnosti náhodných složek a tedy ani reziduí. Avšak aby bylo možné získat intervalové odhady parametrů a odvodit výběrová rozdělení odhadových funkcí, popř. testovat i určité hypotézy týkající se vlastností lineárního regresního modelu, je vhodné k již uvedeným předpokladům přidat ještě požadavek následující. 5) ε i mají normální rozdělení pro každé i =,,..., n. Vektor ε má n-rozměrné normální rozdělení s nulovým vektorem středních hodnot a s kovarianční maticí σ In. Důsledkem podmínky normálního rozdělení náhodného vektoru ε je i normální rozdělení náhodného vektoru y. Rovněž podmíněná rozdělení Y odpovídající různým kombinacím hodnot vysvětlujících proměnných jsou normální a náhodný vektor y má n-rozměrné normální rozdělení s vek- torem středních hodnot Xβ a kovarianční maticí σ In. 6) Parametry β j, j =,,..., k, mohou nabývat libovolných hodnot. Na vektor β nejsou kladeny žádná omezení či požadavky. Tj. nemáme o hodnotách parametrů žádné předběžné podmínky. - -

13 V praxi je téměř nemyslitelné bez ověření platnosti výše uvedených předpokladů hovořit o vlastnostech regresních odhadů. Nelze očekávat, že tyto předpoklady platí automaticky. V následující kapitole 3 budu výše uvedené podmínky oslabovat.. Metoda nejmenších čtverců Jsou-li splněny první čtyři předpoklady, lze na základě výběru n pozorování vysvětlované proměnné a všech k vysvětlujících proměnných odhadnout vektor parametrů lineárního regresního modelu metodou nejmenších čtverců (MNČ). Je-li v souladu s prvním předpokladem střední hodnota vektoru ε rovna nule, pak E(y) = Xβ + E(ε) = Xβ. (.6) Takže střední hodnota vysvětlované proměnné je rovna pouze systematické složce modelu. Odhad regresních koeficientů Označí-li se b odhadová funkce vektoru parametrů β, získaná metodou nejmenších čtverců pak lze psát y = Xb + e (.7) popř. $y = Xb (.8) kde e je vektor reziduí odpovídající odhadu $ε, $y... vektor odhadnutých hodnot vysvětlované proměnné. Na základě definice odhadované funkce, lze odhad vektoru parametrů β získat minimalizací součtu čtverců reziduí e e. Dospěje se k tzv. normálním rovnicím nejmenších čtverců z nichž se vyjádří odhadová funkce vektoru β, založená na kritériu nejmenších čtverců ve tvaru b = (X X) - X y. (.9) Protože matice druhých parciálních derivací ee b b opravdu dosažení minima (.9). je pozitivně definitní, vektor b zaručuje - 3 -

14 Vlastnosti : ) Protože (X X) - X je matice konstant, prvky vektoru b jsou lineárními funkcemi vektoru y. Nebo-li odhadová funkce (.9) je lineární transformací y. Tudíž b je lineární odhadová funkce. Vzhledem k tomu, že y závisí na náhodné složce, je b stochastického charakteru. ) Střední hodnota odhadové funkce b, získané opakovaným výběrem pozorování vektoru y je β, nebo-li odhadová funkce MNČ (.9) je nestranná. 3) Odhadová funkce (.9) je nejlepší lineární nestranná odhadová funkce vektoru β. Aby se mohly posoudit rozptyly a kovariance odhadové funkce MNČ je nutné stanovit kovarianční matici odhadové funkce b tj. C(b) = E[(b - β )(b - β ) ] = (X X) - X E[(uu )X(X X) - ] = σ In (X X) - X X(X X) - = σ (X X) -. (.0) Označí-li se libovolná lineární odhadová funkce vektoru β, různá od odhadové funkce MNČ např. jako b*, lze ukázat, že C(b*) je větší nebo roven C(b), rozdíl kovariančních matic C(b*) - C(b) je tedy pozitivně semidefinitní matice. Nebo-li, že E(b j * - β j ) E(b j - β j ), j =,,..., k, (.) kde b j jsou prvky odhadové funkce b. Důkazy výše uvedených tvrzení viz. například Hušek, Ekonometrie, 976. Jinými slovy, odhadová funkce b, získaná MNČ má nejmenší výběrový rozptyl ze všech lineárních nestranných odhadových funkcí vektoru β. Tím by se zároveň dokázala i tzv. Gaussova-Markovova věta, která říká, že při splnění předpokladů, které se týkají matice X pro použití MNČ, je odhadová funkce b získaná MNČ ve tvaru (.9) nejlepší lineární nestranná odhadová funkce, takže jakákoli odhadová funkce vektoru β, která je také lineární formou vektoru y, a zároveň nestranná, má kovarianční matici složenou z kovarianční matice b a navíc z pozitivně semidefinitní matice

15 . Odhad rozptylu náhodné složky K výpočtu kovarianční matice odhadnutých parametrů C(b) je potřeba znát i odhad rozptylu náhodné složky, neboť skutečnou hodnotu σ nelze určit vzhledem k tomu, že hodnoty náhodných složek nelze získat pozorováním. Označí-li se odhad σ jako $σ, pak lze ukázat, že při odvození odhadové funkce rozptylu náhodné složky je možno vyjít z rozptylu vektoru reziduí e, spočteného na základě MNČ. Vyjádří-li se střední hodnota součtu čtverců reziduí, dostane se E(e e) = σ (n - k), (.) rozptyl náhodných složek lze tudíž psát jako σ = E(e e)/(n - k), takže statistika $σ ve tvaru $σ = (e e)/(n - k) (.3) je nestrannou odhadovou funkcí rozptylu náhodné složky, získanou pomocí MNČ, protože platí, že E( $σ ) = σ. e e je reziduální součet čtverců a k je počet parametrů regresní funkce. Nyní je možné přistoupit i k numerickému určení kovarianční matice odhadnutých - parametrů C(b). Protože inverzní momentová matice (X X) je nestochastická a $σ je nestrannou odhadovou funkcí rozptylu odhadů parametrů, určených MNČ statistika S(b), daná výrazem σ σ, je nestrannou odhadovou funkcí kovarianční matice S(b) = $σ - (X X). (.4) Odmocniny diagonálních prvků této matice jsou odhadnuté směrodatné chyby regresního lineárního modelu, které se používají nejen jako míry přesnosti bodové odhadové funkce MNČ b, ale i při intervalovém odhadu a při testování statistické významnosti bodových odhadů parametrů

16 .3 Ověřování významnosti lineárního regresního modelu K určení odhadových funkcí parametrů lineárního regresního modelu (.4) MNČ nebylo zase úplně nutné předpokládat nějaké konkrétní rozdělení pravděpodobnosti náhodných složek a tedy ani reziduí. Aby bylo možné dostat intervalové odhady parametrů a bylo možné odvodit výběrová rozdělení odhadových funkcí, popř. testovat i určité hypotézy týkající se vlastností lineárního regresního modelu, je nutné k prvním čtyřem předpokladům přidat ještě požadavek, aby n-rozměrný vektor náhodných složek měl normální rozdělení s nulovou střední hodnotou a kovarianční maticí E(εε ) = σ I n, takže lze psát ε ~ N(0,σ I n ), (.5) přičemž funkce vektoru ε má tvar f(ε) = (πσ ) -n/ exp[-ε ε /(σ )]. (.6) Při předpokladu normality je odhadová funkce MNČ pro parametry modelu identická s odhadovou funkcí metody maximální věrohodnosti (MMV)..3. t-testy Protože bodová odhadová funkce parametrů b poskytuje výběrové odhady b, b,..., b k na základě jednoho výběru pozorování ze základního souboru, musí se testovat jejich statistická významnost. Z předpokladu normality náhodných složek plyne, že také stochastická odhadová funkce b má normální rozdělení s vektorem středních hodnot rovných β a s kovarianční maticí σ (X X) -. Pokud by byl konstantní rozptyl náhodných složek znám, dalo by se použít předpokladu b ~ N[β, σ (X X) - ], (.7) jako východiska k testování hypotéz o skutečných hodnotách jednotlivých parametrů. Ve skutečnosti však σ není znám a proto se vychází při testování významnosti parametrů z jeho nestranného odhadu MNČ. Pokud je nestranný odhad σ znám, určí se i nestranné odhady rozptylů odhadnutých parametrů b na základě (.4). Odmocniny odhadů rozptylů σ $ $ σ x b = jj na

17 diagonále odhadu pro kovarianční matice S(b) jsou odhady směrodatných chyb bodových odhadů β j, takže pro ně platí $ σ = $ σ x, j =,,..., k a x jj je diagonální prvek (X X) -. b j jj Nediagonální prvky (.4) představují odhadnuté kovariance dvojic bodových odhadů, neboli cov(b j b j ) =, j j. $σ x jj Podíl b j β j σ b j je standardizovaná normální proměnná s nulovým průměrem a jednotkovým rozptylem, takže poměr t j b j β j = σ$ b j (.8) má pro každé j Studentovo rozdělení t s (n - k) stupni volnosti. Testovací statistika (.8) je vhodná především pro malé výběry (n < 30). Pohybuje-li se počet stupňů volnosti kolem 30, pak rozdíly mezi kritickými hodnotami rozdělení t a normovaného normálního rozdělení jsou již malé. Testovací statistika (.8) umožňuje testovat hypotézy, týkající se skutečné hodnoty libovolného parametru β j. ) Pokud je potřeba testovat nulovou hypotézu, že skutečná hodnota parametru β j = m j proti alternativní hypotéze β j m j, použije se jako testovací statistika veličina t j b = j m $σ b j j. (.9) Platí-li při použití dvoustranného testu t j > t α/, nebo-li absolutní hodnota vypočteného t j je větší než tabelovaná kritická hodnota t α/ pro (n - k) stupňů volnosti, pak se na α% hladině významnosti nulová hypotéza odmítne ve prospěch alternativní hypotézy. V opačném případě kdy t α/ t j, se nulová hypotéza na dané hladině významnosti akceptuje. ) Velmi často se testuje nulová hypotéza, že libovolný parametr β j = 0, což znamená, že příslušná vysvětlující proměnná X j nemá žádný vliv na vysvětlovanou proměnnou Y

18 V takovém případě se statistika t j zjednoduší, neboť vzhledem k (.9) se pro j-tý parametr dostane t j b j =. (.0) $σ b j Testovací statistika (.0) se nazývá t poměr a někdy se používá jako míra přesnosti bodových odhadů parametrů místo odhadnutých směrodatných chyb. Pomocí tohoto poměru se posuzuje statistická významnost j-tého parametru tak, že nulová hypotéza β j = 0 se akceptuje když t α/ t j pro hladinu významnosti α a (n - k) stupňů volnosti, nebo-li s pravděpodobností 00(-α) procent se dá usuzovat, že bodový odhad b j není statisticky významný. Platí-li naopak, že t j > t α/, nulová hypotéza β j = 0 se odmítne a konstatuje se, že vysvětlující proměnná X j je z hlediska svého vlivu na vysvětlovanou proměnnou Y významnou proměnnou na hladině významnosti α a při (n - k) stupních volnosti..3. Celkový F-test Obdobným způsobem, jakým se testuje významnost jednotlivého parametru, nebo se určuje jeho interval spolehlivosti na základě rozdělení t, lze postupovat v případě, kdy se testuje významnost nebo kdy je nutné stanovit interval spolehlivosti více parametrů najednou. Místo z rozdělení t se však vychází z rozdělení F, jehož testovací statistika je podílem dvou nezávislých rozdělení χ s počtem stupňů volnosti (k - ), popř. (n - k). Takže podíl F = ( b β ) X X ( b β ) ( n k) ( y Xb) ( y Xb) ( k ) (.) má rozdělení F s počtem stupňů volnosti (k - ) a (n - k). Tuto statistiku lze použít platí-li, že Y má nulový průměr, k získání simultánního intervalu spolehlivosti pro všechny složky vektoru b současně i k testování významnosti odhadnutého modelu jako celku. V případě pouze dvou parametrů je interval spolehlivosti dán elipsou, pro k parametrů je pak výsledkem k-rozměrný elipsoid spolehlivosti. Celkový F-test neumožňuje posoudit, zda všechny proměnné jsou v regresní funkci užitečné, ani zda bylo potřeba zařadit do rovnice další, či jiné proměnné. V aplikacích je tedy třeba dát pozor na přecenění výsledku zamítnutí Ho : β = β =... = β k

19 Na základě t, resp. F testů se nemusí vždy dospět k jednoznačnému závěru. Často se při ověřování statistické významnosti stává, že F-test je signifikantní, ale některé nebo všechny parametry nikoliv, nebo naopak F-test je nevýznamný a většina nebo všechny parametry významné jsou. V takových situacích je těžké rozhodnout, zda se přisoudí větší váha F-testu, nebo směrodatným chybám odhadnutých parametrů modelu

20 3 Zobecněný model 3. Zobecněný lineární regresní model V aplikacích lineárního regresního modelu nebývají některé požadavky týkající se vlastností vektoru náhodných složek ε splněny. Proto je nutné předpoklady o charakteru vektoru ε do jisté míry uvolnit a použít při kvantifikaci modelu odpovídajícím způsobem modifikované metody odhadu parametrů. Obecně se postupuje tak, že v prvním kroku, který má diagnostický charakter se na základě vhodných testovacích charakteristik ověřuje, který z klasických požadavků (pokud jde o náhodnou složku lineárního modelu) a v jaké míře není splněn. Následuje úprava základní struktury modelu, použitých statistických dat nebo odhadových metod. Zobecněným lineárním modelem se rozumí klasický lineární regresní model y = Xβ + ε se změněnou podmínkou týkající se kovarianční matice ε, a tedy i y. Předpoklad E(ε) = 0 tedy zůstává v platnosti. Rozdíl mezi klasickým a zobecněným modelem spočívá v tom, že místo kovarianční matice C(ε) = C(y) = σ I n se zavádí obecnější kovarianční matice Ω = σ W s rozptyly D(ε i ) = D(y i ) = σ i = σ w ii, i =,,..., n, a s kovariancemi C(ε i,ε i ) = C(y i,y i ) = σ ii = σ w ii pro každou dvojici i i =,,..., n. V klasickém lineárním modelu se předpokládá, že jednotlivé rozptyly jsou stejné a rovnají se nějaké neznámé konstantě σ. Proti tomu se v zobecněném modelu připouští, že tyto rozptyly nemusí být nutně všechny stejné a jsou to (většinou neznámé) konstanty. σ i Pro obecné řešení a snažší přehlednost je výhodné je zapsat ve formě σ i = σ w ii, kde w ii jsou kladné konstanty (váhy). Podobně se v klasickém modelu předpokládá, že dvojice náhodných složek ε i a ε i (popř. y i a y í ) jsou nezávislé, zatímco zobecněný model připouští možnost závislosti jednotlivých pozorování. Z věcného hlediska jde o dva samostatné problémy heteroskedasticity a autokorelace. Pro obecné řešení je možné zkoumat oba případy společně, já se budu zabývat pouze heteroskedasticitou a kovarianční matici ε (popř. y) zapsat maticově ve tvaru - 0 -

21 σ σ... σ n σ σ σ C(ε) = C(y) = Ω =... n σ n σ n... σ n w w... w n w w w n = σ wn wn... wnn = σ W. Z vlastností rozptylu vyplývá, že na diagonále matice jsou kladná čísla (w ii 0 pro každé i), že matice W je symetrická ( w ii = w i i pro každou dvojici i i ) a navíc je i pozitivně semidefinitní (vyplývá z nerovnice E(ε i ε i ) [E(ε i )E(ε i ) / ] řádu n). Rovněž se předpokládá, že matice W - existuje. Symetrická matice W se normuje tak, že st W = n, nebo-li průměr diagonálních prvků kovarianční matice C(ε) je, což je rozptyl náhodných složek εi. Je-li W = I n, model se redukuje na standardní lineární regresní vztah. σ 3. MZNČ Podstatou této metody, někdy také nazývané Aitkenův odhadový postup je vhodná transformace zobecněného lineárního modelu, která zajistí splnění podmínky C(ε) = a umožní následný odhad takto modifikovaného modelu klasickou MNČ. σ In Pokud se předpokládá, že ostatní předpoklady klasického lineárního modelu (.4) zůstávají v platnosti, existují různé možnosti určení nejlepšího lineárního nezkresleného odhadu vektoru β. Tato metoda musí vycházet ze znalosti matice W. Jednou z možností je nalézt matici T takovou, aby platilo T T=W - (3.) takže TWT = I n. Pokud se rovnice y = Xβ + ε vynásobí zleva nesingulární čtvercovou maticí T řádu n získá se Ty = TXβ + Tε (3.) neboli y* = X*β + ε* (3.3) což lze interpretovat jako lineární regresní model s vektorem n vysvětlovaných proměnných y* = Ty, ve kterém X* = TX je matice k nových vysvětlujících proměnných a ε* = Tε je - -

22 vektor náhodných složek. Výhodou této úpravy je okolnost, že pro náhodnou složku ε* platí klasická podmínka C(ε*) = σ In. Nebo-li E(ε*ε* ) = E(Tεε T ) = σ TWT = σ In. Neboť matice transformace T je volena tak, že (3.) vyhovuje předpokladům kladeným na klasický lineární regresní model a odhadová funkce vektoru β založená na MNČ má optimální vlastnosti (uvedené v předcházející části klasický lineární regresní model). Použije-li se MNČ k odhadu parametrů transformovaného modelu (3.), získá se b = (X *X*) - X* y* = (X T TX) - X T Ty = (X W - X) - X W - y (3.4) což je tzv. Aitkehova odhadová funkce, odvozená metodou zobecněných nejmenších čtverců (MZNČ), pro vektor β zobecněného lineárního modelu (3.). Odhadová funkce MZNČ vektoru β, definovaná výrazem (3.4), je opět nejlepší lineární nestrannou odhadovou funkcí. Jde o odhadovou funkci MNČ, aplikovanou na standardní lineární regresní model (3.) popř. (3.3) obsahující transformované proměnné. Je-li vektor ε rozdělen normálně, má normální rozdělení i vektor ε*, takže lze při statistickém ověřování významnosti transformovaného modelu (3.) nebo (3.3) použít např. testy uvedené v předcházejících podkapitolách.3. Použije-li se k odhadu vektoru β MNČ i v případě, že W není rovno I n, pak odhadová funkce MNČ vektoru β si sice zachová vlastnosti nestrannosti, avšak její kovariační matice bude větší než při odhadu β pomocí MZNČ. Tzn., že odhadová funkce MNČ, aplikovaná přímo na zobecněný lineární model, kde E(εε ) = σ W, přestává být nejlepší lineární nestrannou odhadovou funkcí vektoru β, neboť nesplňuje požadavek minimálního rozptylu. Kovarianční matice odhadové funkce MZNČ (3.4) je dána výrazem C(b) = σ - (X* X*) = σ (X W - X) -. (3.5) Nevychýlený odhad σ se získá obdobně jako v KLM. E(e W - e ) = σ (n - k) takže nevychýlený odhad σ je $σ = (e W -e)/(n - k). (3.6) Zobecněný rozptyl (3.6) je nezkresleným odhadem stochastického parametru σ. - -

23 Odhadovou funkcí kovarianční matice C(b) je tudíž statistika S(b) ve tvaru S(b) = $σ (X W - X) -. (3.7) Pokud by se nerespektovala skutečnost, že podmínka E(εε ) = σ In není splněna bude odhad σ na základě $σ dokonce zkreslený. Intervaly spolehlivosti a testy hypotéz pak nebudou mít velkou cenu. Pokud se respektuje okolnost, že E(εε ) = σ W, a bude se vycházet ze skutečnosti, že matice W je známa, pak pomocí (3.4) se vypočte odhadová funkce MZNČ, jakož i směrodatné chyby, takže je možné určit i hodnoty obvyklých testovacích statistik, včetně intervalů spolehlivosti jednotlivých parametrů β Praktické řešení problému je ovšem výrazně složitější než řešení teoretické. Vzniká celá řada otázek, jako např.: Jak se identifikuje domněnka o stejných rozptylech a (nebo) nulových kovariancích? Kdy použít MZNČ místo MNČ? Známe matici W? Jakým způsobem se odhadne? Pokud se nahradí W jejím odhadem, zůstane zobecněný odhad kvalitní? Ve většině úloh je matice W neznámá a konstruuje se ex post, tj. teprve po odhadu (.4) MNČ na základě spočtených reziduí, přičemž způsoby transformace (.4) na (3.) se liší v případě heteroskedasticity a autokorelace. j. 3.3 Odhad matice W v zobecněném lineárním modelu V praktických situacích je většinou nutné slevit z předpokladu znalosti matice Ω, popř. W. A musí se hledat vhodný odhad matice W a následně se tento odhad použije k odhadu β. Výše uvedený odhad odhadu se vyjadřuje jako $ β = (X W$ - X) - X W$ - y. (3.8) Odhad n rozptylů na základě n pozorování nepřichází většinou bez určitých omezení, či dodatečných předpokladů v úvahu. Jednotlivými typy heteroskedasticity a následnými odhady diagonálních prvků matice Ω se zabývám v následujících kapitolách. Určení konečných vlastností odhadu (3.8) je obecně obtížný problém mimo jiné protože $ β = (X W$ - X) - X W$ - y = β + (X W$ - X) - X W$ - ε

24 Úsudky o β jsou založené na asymptotických vlastnostech $ β a pro některé specifické funkce W(θ), kde θ je nějaký vektor parametrů či parametr na jehož určení závisí i odhady W. Existují dva obecné výsledky, které patří ke konečným vlastnostem odhadu $ β. Pokud rozdělení ε je symetrické kolem 0 a W $ je sudá funkce reziduí e tj. ( W $ (e) = W $ (-e)) $ $ potom je β nevychýlený odhad β (pokud existuje E( β ) ). Pro druhý výsledek platí kde $σ = $e W $ - $e /(n - k) $ $e = y - X β a nechť $θ je odhad θ (neznámého parametru, či vektoru parametrů W) je získán pomocí reziduí z MNČ. Potom např. Breusch, A Simple Test for Heteroscedasticity and Random Coefficient Variation, 980 dokázal, že rozdělení ( β - β)/σ, $ $ σ /σ a $e /σ nezávisí na β a σ. Tento fakt má význam při plánování simulačních experimentů. Vlastnosti EGLS v konečných výběrech nejsou obecně odvoditelné. Je pouze možné spoléhat se na asymptotické vlastnosti a pro konečné výběry na výsledky simulačních experimentů. Tyto experimenty jsou, ale pouze konkrétními specifickými modely a je tedy nebezpečné provádět obecná zevšeobecnění. Nicméně se ukazuje, že odhady EGLS budou častěji lepší než odhady MNČ, alespoň pro větší rozsahy výběrů. Je jasné, že to neplatí vždy. Například pokud by platilo, že $β = b budou mít oba odhady minimální rozptyly a tedy b má $ menší rozptyl než β. Asymptotické výsledky jsou obecnější. Pokud se předpokládají dodatečné podmínky je možné odvodit odhadové funkce pro Ω, stejně jako odhady MZNČ a EGLS pro β, takové aby byly konzistentní. Dostatečné podmínky, aby odhady MZNČ a odhady (EGLS) byly konzistentní a měli stejné asymptotické rozdělení jsou : lim n - (X Ω - X) = Q, (3.9) kde Q je konečná a nesingulární matice; - 4 -

25 a p lim n - X ( $ Ω - - Ω - )X = 0 (3.0) p lim n -/ X ( $ Ω - - Ω - )ε = 0 (3.) Pokud jsou tyto podmínky dodrženy, n( $ β $ β) konverguje podle pravděpodobnosti k nule, obě odhadové funkce budou asymptoticky normální se střední hodnotou β a kovarianční maticí n - σ Q -. Pokud navíc platí p lim n - e ( $ Ω - - Ω - )e = 0 (3.) potom oba odhady a $ $σ = [(y - X β ) $ Ω - $ (y - X β )]/(n - k) $σ = [(y - X $ β ) $ Ω - (y - X $β )]/(n - k) jsou konzistentní odhady σ. Tyto podmínky, jestliže jsou splněny, znamenají, že pokud se podaří nalézt matici T $ takovou, že platí T $ T $ = $ Ω -, mohou být obvyklé procedury aplikované na transformovaný model T $ y = T $ Xβ + T $ ε asymptoticky spolehlivé. Podmínky (3.9) - (3.) jsou obecné podmínky, které mohou být ještě konkrétnější, pokud se vezmou v úvahu nějaké další předpoklady o Ω. 3.4 Metoda Maximální věrohodnosti Za předpokladu, že v modelu y = Xβ + ε má náhodný vektor ε normální rozdělení s nulovým vektorem středních hodnot a s kovarianční maticí σ W(θ), kde W(θ) vyjadřuje, že matice W závisí na h-členném vektoru parametrů θ. Po vynechání nepotřebných proměnných má logaritmus věrohodnostní funkce tvar logl = (-n/)logσ - (/)log W - (/σ )(y - Xβ) W - (y - Xβ). (3.3) Maximalizace (3.3) vzhledem k β a σ vede k ~ β = (X W(θ) - X) - X W(θ) - y (3.4) ~ ~σ = (y - X β ) W(θ) - ~ (y - X β )/n. (3.5) - 5 -

26 Obvyklý postup je takový, že se nejdříve maximalizuje (3.3) vzhledem k θ získaný $θ se použije v W( $θ ) = W $. Díky vlastnostem metody maximální věrohodnosti jsou výsledné odhady pro β a σ asymptoticky vydatné. Většinou je ale třeba užít pro řešení některou z metod umožňující řešení soustavy nelineárních rovnic. 4 Heteroskedasticita - 6 -

27 4. Co je heteroskedasticita a jaké jsou její příčiny Podmínka klasického lineárního regresního modelu v sobě zahrnuje především požadavek konečného a konstantního rozptylu náhodných složek, a tudíž i reziduí modelu, který se označuje jako homoskedasticita. V opačném případě se jedná o heteroskedasticitu. S tímto modelem je možné se setkat především při odhadu parametrů z průřezových dat, kdy dochází k velkým změnám v hodnotách vysvětlujících proměnných. Mnohem méně se heteroskedasticita objevuje při odhadu modelu z časových řad. Tři příklady měnícího se rozptylu náhodných složek, a tedy i rozptylu vysvětlované proměnné jsem uvedl v první kapitole, jednalo se o úsporovou funkci domácností (s rostoucími příjmy domácností roste variabilita jejich úspor), Cobb-Douglasovu produkční funkci (rozptyl objemu produkce se zpravidla přímo úměrně mění s počtem zkoumaných firem nebo jejich velikostí) a odvětvovou nákladovou funkci. Někdy je z ekonomické praxe a priori nezbytné předpokládat porušení podmínky homoskedasticity. V dalším textu budu všude předpokládat existenci pouze samotné heteroskedasticity bez existence autokorelace. Příčiny heteroskedasticity jsou především ) Jak jsem již uvedl mikro či makro ekonomická data nabývají značně rozdílných hodnot v jednom náhodném výběru pozorování, takže rozptyl vysvětlované proměnné, a tím i reziduí, je často funkcí některé vysvětlující proměnné. ) Chybná specifikace modelu, spočívající ve vynechání některé podstatné vysvětlující proměnné. Takto vynechaná proměnná je pak zahrnuta v náhodné složce a pokud má podobný průběh jako vysvětlovaná proměnná, tj. vyšší hodnota vysvětlované proměnné je důsledkem vyšší hodnoty vysvětlující proměnné, způsobuje růst variability vysvětlované proměnné, kterou vysvětlující proměnné zahrnuté do modelu nepostihují. 3) Při výskytu chyb měření dochází k jejich kumulaci s rostoucí vysvětlovanou proměnnou a tím se zvětšuje její rozptyl i rozptyl reziduí

28 4) Heteroskedasticita rovněž přirozeně vzniká v modelech s náhodnými parametry (Hildreth a Houck, Some Estimators for Linear Model with Random Coefficients, 968). V tomto případě se uvažuje k k y = β x = ( β + v ) x = β x +ε (4.) i ij ij j ij ij j= j= j= k j ij i kde ε i = k j= v x iji iji, E(v ij ) = 0, E(v ij v ij ) = 0 pro j j nebo i i, a E(v ij ) = α j. k α j x ij j= To implikuje, že E(e i ) = 0, E(e i e i ) = 0 pro i i a σ i = E(e i ) =. Tedy každý parametr, β ij se považuje za náhodnou veličinu se střední hodnotou β j a odhad vektoru středních hodnot β = (β, β,..., β k ) je možno uskutečnit MZNČ. MZNČ, ale vyžaduje odhad α j, tento odhad se potom použije k odhadu odhadové funkce β MZNČ. 5) Použijí-li se k odhadu parametrů modelu nikoliv původní pozorování, nýbrž například skupinové průměry, spočtené z tříděných údajů. Poslední příčinu zdokumentuji na příkladě. Příklad 4 Nechť y ij je sklizeň určité plodiny z i-tého hektaru j-té farmy, x ij a x ij představují množství vložené práce a množství vloženého kapitálu na i-tý hektar j-té farmy, i =,,..., N j, j =,,..., n, kde N j je počet hektarů (s nějakou plodinou) u j-té farmy a N = Pokud by byla tato data dostupná, může se předpokládat například model: n j= N j. y ij = β 0 + β x ij + β x ij + ε ij, (4.) kde platí E(εε ) = σ I n, ε = (ε, ε,...,ε n ), ε j = (ε j, ε j,..., ε NjJ ). Většinou jsou, ale k dispozici data která představují jen průměrné hodnoty z jednotlivých n farem. Zajímá nás vlastně regresní funkce y j = β 0 + β x j + β x j + ε j, (4.3) kde y j = N j Nj i= y ij a podobně i další průměry x,x j j

29 V tomto případě platí E( ε j ) = 0, a E( ε ) = j Nj N E jσ σ ε ij j i NN j N j = = =. (4.4) Ačkoliv ε ij jsou nekorelované a mají stejný rozptyl σ pro každé i =,,..., N j, j =,,..., n, jsou agregovaná data heteroskedastická s nestejnými rozptyly σ N j. Pokud se znají váhy N j (celkový počet hektarů u j-té farmy) je velmi jednoduché matici W - určit jako W - = diag (N, N,..., N n ) a použít ji k odhadu β MZNČ. Agregací hektarů se data stala heteroskedastickými. Předpokládejme, že náhodné složky ε i nemají konstantní rozptyly, ale jsou nezávislé. Kovarianční matice náhodných složek má pak tvar σ σ C(ε) = = Ω σ n Zapíše-li se každý rozptyl ve formě σ i = σ w i, je možné matici Ω zapsat jako w Ω = σ 0 w w n = σ W. n Výhodné je zavést podmínku st(w) = w i = n. Pro obecné řešení odhadu vektoru β i= v modelu y = Xβ + ε je lhostejné, zda se pracuje s maticí Ω nebo s maticí W. Konstanta σ nic nemění na tom, že nejlepším lineárním nezkresleným odhadem β je zobecněný odhad $β = (X Ω - X) - X Ω - y= (X W - X) - X W - y (4.5) s kovarianční maticí σ (X Ω - X) -. σ odhadujeme pomocí $σ = e Ω - e/(n - k), což je jeho nevychýlený odhad Pro odhad β není podstatné, zda se pracuje přímo s rozptyly σ i nebo s maticí vah wi

30 Pokud by se za předpokladu Ω I n, β odhadovala pomocí b = (X X) - X y místo (4.5), tak $β zůstává stále nevychýlenou odhadovou funkcí β, ale odhad již není vydatný, protože nemá minimální rozptyl. Protože její kovarianční matice je nyní C(b) = E[(b - β)(b - β) ] = E[(X X) - X εε X(X X) - ]= σ (X X) - (X Ω - X)(X X) -, obvyklý vzorec pro kovarianční matici není vhodný a rovněž v předchozí kapitolách bylo ukázáno, že odhadová funkce pro σ je vychýlená. Heteroskedasticita způsobuje, že odhady parametrů získané klasickou MNČ, ztrácejí některé optimální vlastnosti. Lze dokázat, že i při nedodržení požadavku konečného a konstantního rozptylu poskytuje MNČ nestranné a konzistentní bodové odhady regresních parametrů, které však ztrácejí vydatnost i asymptotickou vydatnost. Odhady rozptylů a směrodatných chyb odhadnutých regresních parametrů nelze získat pomocí vzorců, odvozených pro případ homoskedasticity, takže běžné testy statistické významnosti, ani intervalový odhad nejsou použitelné. Při aplikaci obvyklých odhadových funkcí pro směrodatné chyby odhadů, bez ohledu na měnící se rozptyl náhodných složek, se dospěje k vychýleným odhadům směrodatných chyb, takže intervalový odhad je podhodnocený nebo nadhodnocený a výsledky testů jsou také nereálné

31 4. Vážená metoda nejmenších čtverců Předtím než začnu popisovat jednotlivé heteroskedastické struktury, pokusím se na- stínit použití MNČ a MZNČ za obecného předpokladu, že Ω = diag ( σ, σ,..., σ n ). V této souvislosti se MZNČ někdy také nazývá vážená metoda nejmenších čtverců. K důvodu tohoto názvu uvádím příklad. Příklad 5 i-té pozorování rovnice y = Xβ + ε lze zapsat jako y i = x i β + ε i, (4.6) a odhadová funkce získaná MZNČ je tedy dána n n n n $β = ( X Ω X) X Ω * * y = σ i xx i i σ i xi yi = xx i i xi * yi* i= = (X* X*) - X* y* (4.7) kde x i * = x i /σ i, y i * = y i /σ i, X* = TX, y* = Ty, T = diag ( σ, σ,..., σ n ) a platí T T = Ω -. Nebo-li MZNČ je MNČ uplatněná na transformovaný model Ty = TXβ + Tε, jehož i-té pozorování je y i /σ i = x i β /σ i + ε i /σ i. (4.8) Každé z těchto pozorování je váženo převrácenou hodnotou směrodatné odchylky odpovídající náhodné složky a odhadová funkce MZNČ vlastně minimalizuje n i= ε i σ i i= i= i=, součet čtverců vážených reziduí. Spolehlivější pozorování (tj. ty s relativně nízkou σ i ) jsou váženy mnohem více a hrají větší roli v procesu odhadování než ty pozorování, která jsou méně spolehlivá. Pokud bych se vrátil k příkladu, kde se používala zprůměrovaná data (příklad 4), tak pozorování z velkých farem by byla vážena více než pozorování z malých farem. Pokud není σ i znám, případně závisí na neznámých parametrech v odhadové funkci pro β získané pomocí MZNČ. Je možné nahradit σ i jejich odhady $σ i, pak se ovšem jedná o odhad odhadové funkce. O metodách odhadu σi se zmíním v dalších částech své diplomové práce. Poznámka Pokud by se použila MNČ v případě, že Ω σ I n odhadová funkce b by nebyla vydatná a odhadová funkce jejího rozptylu by byla dokonce vychýlená. Všechny odhady vychýlení rozptylu budou záviset pouze na matici X a na formě heteroskedasticity, takže je nutné přihlížet - 3 -

32 k jednotlivým příkladům. Například pokud by se uvažoval model y i = βx i + ε i, E(ε i ) = σ i, rozdíl ve vydatnosti je dán x σ i i i i / i C(b) - C( $ β ) = ( x ) ( x σ ). (4.9) Pokud je σ i = σ tento rozdíl je roven 0, pokud σ i = σ x i pak rozdíl je (σ i /( x i ) )( x 4 i - ( x i ) /n), což indikuje ostatně jak by se dalo očekávat, že čím větší je rozptyl x i, tím větší je ztráta vydatnosti. Vychýlení odhadové funkce rozptylu b v modelu y i = βx i + ε i, E(ε i ) = σ i je tedy dáno E[ $σ (X X) - ] - C(b) = n ( n )( x ) i x σ i i x i n σ i. (4.0) Odtud je vidět, že vychýlení závisí na stupni korelace mezi x i a σ i. Pokud je tato korelace kladná, což je nejčastější případ, výběrový rozptyl b bude podhodnocen. Pokud není korelace, tak ani odhad nebude vychýlen. Volba vhodných metod odhadů rozptylu závisí také na dalších předpokladech o σ i. O jednotlivých předpokladech a vhodných technikách, které se dají použít pro každý předpoklad, pojednává kapitola 5 a v kapitole 6 se zmíním o možném testování heteroskedasticity

33 5 Odhady parametrů lineárního modelu V této kapitole se pokusím přiblížit některé typy heteroskedastických struktur a s nimi související odvozovací procedury, které se nejčastěji objevují v literatuře. Pokud je dána určitá forma σ i, nabízejí se například otázky: Jak odhadnout neznámé parametry na nichž σ i závisí? Jak testovat existenci nějaké konkrétní formy heteroskedasticity a jaké provést závěry o β? Širší otázky vznikají s obecným testováním heteroskedasticity (bez znalosti konkrétní formy) například: Jakou povahu má σ i pokud se heteroskedasticita v modelu prokáže a jaké je možné činit závěry o vlastnostech odhadových funkcí, které jsou důsledkem testů hypotéz v kapitole. Tab. y = Xβ + ε, E(ε) = 0, E(εε ) = Ω = diag (σ, σ,..., σ n ) 5.. Odhad σ i bez apriorních předpokladů 5..4 Rozptyly σ i jsou lineární funkcí vysvětlujících proměnných 5.. Rozptyly konstantní v rámci podskupiny pozorování 5..5 Rozptyly σ i jsou funkcí střední hodnoty E(y i ) 5..3 Směrodatné odchylky σ i jsou lineární funkcí vysvětlujících proměnných 5..6 Multiplikativní heteroskedasticita V tabulce jsou uvedeny hlavní heteroskedastické struktury, které budou popsány v následujících podkapitolách. Jako první popíši situaci, kdy matici W známe. A poté situaci, kdy nejsou kladena žádná dodatečná omezení na rozptyly (provádí se tedy odhad σ i bez jakýchkoliv apriorních předpokladů). V následujících podkapitolách budu uvažovat alternativní omezující předpoklady o σ i, které se vyskytují v literatuře. $σ n Pro každou formu je obvykle nejdůležitější jak se získá vektor odhadů ($ σ, $σ,..., ), který je poté možné použít v odhadové funkci n $ β = ( $ n σ x x ) $ σ i= i i i i i= x i yi. $ V anglické literatuře se β nazývá EGLS (estimated generalized least square) tedy odhad odhadové funkce MZNČ

34 5. Matice W, popř. Ω je známa V takovém případě se parametry modelu y = Xβ + ε určí MZNČ jako $β = (X W - X) - X W - y = (X Ω - X) - X Ω - y = ( σ xx ) σ xy n ( zz ) i= i i n i= z i n i= i i i qi = (Z Z) - Z q, (5..) kde x i je i-tý řádek matice X, y i je i-tá hodnota vektoru y, z i je i-tý řádek matice Z = TX, q i je i- tý řádek vektoru q = Ty a T je diagonální matice n i= i i i = T = diag (σ -, σ -,..., σ n - ), takže T T = Ω -. V tomto případě je MZNČ vlastně MNČ uplatněná na transformovaný model y i /σ i = x i β /σ i + ε i /σ i. (5..) Odhad $ β se získá, kterýmkoliv ze vzorců (5..), nebo uplatněním MNČ na transformovaná data, kdy i-té pozorování y i, x ij, i =,,..., n, j =,,..., k, se dělí i-tou směrodatnou odchylkou σ i. Jde vlastně o použití vážené MNČ, kdy se minimalizuje Q e = n i= ε i σ i. Opět bych chtěl zdůraznit, že nesprávné použití MNČ místo MZNČ vede k méně vydatným odhadům pro β a ke zkresleným odhadům směrodatných chyb odhadů. V praxi to znamená, že odhady vypadají většinou lepší než ve skutečnosti jsou. Jestliže totiž existuje přímá závislost mezi σ i a x i, výběrové rozptyly b budou podhodnocené. Pokud však závislost neexistuje, tak k vychýlení odhadů rozptylů nedojde

35 Poznámka Známé rozptyly V minulém případě se předpokládala znalost matice W či Ω. Ve většině modelů s heteroskedasticitou jsou měnící se rozptyly neznámé. Někdy je ovšem odůvodněné předpokládat, že rozptyl každé náhodné složky je kromě proporcionální konstanty známou funkcí vysvětlující proměnné. Například pokud by se uvažoval model y i = β + β x i + β 3 x i + ε i, a dále se předpokládalo, že rozptyl ε i bude pravděpodobně v přímém vztahu s x i. Např. se může uvažovat σ i = σ x i potom vzniká situace ve které jsou kromě konstanty σ rozptyly známé. A je tedy možné psát Ω = σ W = σ x x x n a pak je tedy možné použít odhad b = (X W - X) - X W - y pomocí MZNČ, resp. aplikovat MNČ na transformovaný model y i /x i = β /x i + β + β 3 x i + ε i /x i. Touto procedurou se rovněž získají uspokojivé odhady. Na druhou stranu vzniká otázka proč právě předpokládat σ i = σ x i, proč ne třeba σ i = σ x i ; σ i = σ / x i apod.. 5. Rozptyly σ i nejsou známy V tomto případě se v (5..) nahradí rozptyly σ i jejich výběrovými odhady, $σ i popř. matici Ω jejím výběrovým odhadem $Ω. S tím však vzniká nový problém nejen způsobu odhadu, ale především posouzení důsledků nahrazení σ i výběrovými odhady na vlastnosti odhadu vektoru parametrů β. Simulační studie naznačují, že kvalita odhadu β podle (5..) při nahrazení Ω odhadem $ Ω značně závisí na postižení skutečné struktury heteroskedasticity. Nabízí se několik možností: 5.. Odhad σ i bez apriorních předpokladů Předpokládá se model y = Xβ + ε, E(ε) = 0, E(εε ) = Ω = diag (σ, σ,..., σ n ), Pokud by se vzaly odhady MNČ b = (X X) - X y a jim odpovídající rezidua e = y - Xb a označí-li se &e jako vektor druhých mocnin reziduí e i a &σ jako vektor rozptylů σ i. Pokud nejsou k dispozici žádná další omezení, je k dispozici vždy jedno pozorování k odhadu jednoho roz

36 ptylu a celkově n pozorování k odhadu n + k parametrů. Příliš velký optimismus o hodnotě odhadů tedy není na místě. Autoři Rao a Kleffe navrhli tzv. MINQUE (nevychýlený kvadratický odhad s minimální normou) neznámých rozptylů &σ. Poznámka MINQUE odhady Kvadratická forma y Ay je MINQUE lineární funkce n c i σ i i=, jestliže Eukleidovská norma matice A, tj. (st(aa)) /, je minimální za podmínky AX = 0 a a σ cσ. (podrobně se ii i i= i= problematikou zabýval např. Rao, Estimation of Heteroskedastic Variances in Linear Models). Je doporučen odhad &σ, který je MNČ odhadem z rovnice n n i i e& = M&& σ + η, kde M & je matice druhých mocnin prvků idempotentní matice M = In - X(X X) - X hodnosti (n - k). Uplatněním MNČ na tuto rovnici je možné získat &$ σ = ( MM &&) Me & & = M& e&. (5..3) Odhad (5..3) je definován, ačkoli matice M je singulární, protože matice M & je regulární. Jelikož hodnost matice M je n - k, je možné vyjádřit k reziduí jako lineární funkci zbývajících n - k reziduí a podobně k rozptylů σ i jako n - k nelineárních funkcí zbývajících σ i. To by znamenalo k nelineárních omezení prvků vektoru &σ. Pokud je třeba odhadovat n - k parametrů na základě n pozorování, je třeba taková omezení mít k dispozici nebo učinit nějaké apriorní předpoklady (třeba o závislosti mezi x i a σ i ). S užitím (5..3) jsou spojeny dva základní problémy pro odhad n $ β = ( $ n x x ) $ σ x y i. (5..4) i= σ i i i i= i i Odhad (5..3) není konzistentním odhadem &σ, takže ani s rostoucím počtem pozorování nedochází ke zvýšení pravděpodobnosti menších výběrových chyb a asymptotické vlastnosti $ β založené na &σ nemohou být odvozené od vlastností, které má odhad (5..). Druhou potí

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 10: Heteroskedasticita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Heteroskedasticita - teorie Druhý

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 4: Statistické vlastnosti MNČ LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Upřesnění k pojmům a značení

Více

AVDAT Geometrie metody nejmenších čtverců

AVDAT Geometrie metody nejmenších čtverců AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε

Více

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0 Heteroskedasticita Přepoklady KLM a Gauss Markov teorém KLM Klasický lineární model 1) Lineární v parametrech ) E ε = 0 Blue odhad - GM Nezkreslený odhad 1) Lineární v parametrech ) E ε = 0 3) E( ȁ ε X)=

Více

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základ ekonometrie Odhad klasického lineárního regresního modelu I Cvičení 2 Zuzana Dlouhá Metodologický postup tvor EM 1. Specifikace modelu určení proměnných určení vzájemných vaze mezi proměnnými

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné

Více

AVDAT Nelineární regresní model

AVDAT Nelineární regresní model AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných

Více

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Matematické modelování Náhled do ekonometrie. Lukáš Frýd Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 5 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Základy teorie odhadu parametrů bodový odhad

Základy teorie odhadu parametrů bodový odhad Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Odhady parametrů Úkolem výběrového šetření je podat informaci o neznámé hodnotě charakteristiky základního souboru

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces

Více

Zákony hromadění chyb.

Zákony hromadění chyb. Zákony hromadění chyb. Zákon hromadění skutečných chyb. Zákon hromadění středních chyb. Tomáš Bayer bayertom@natur.cuni.cz Přírodovědecká fakulta Univerzity Karlovy v Praze, Katedra aplikované geoinformatiky

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D. Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Bodové a intervalové odhady parametrů v regresním modelu 1 Odhady parametrů 11 Bodové odhady Mějme lineární regresní model (LRM) kde Y = y 1 y 2 y n, e = e 1 e 2 e n Y = Xβ + e, x 11 x 1k, X =, β = x n1

Více

Ekonometrie. Jiří Neubauer

Ekonometrie. Jiří Neubauer Úvod do analýzy časových řad Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Úvod do analýzy

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

Statistika II. Jiří Neubauer

Statistika II. Jiří Neubauer Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Časová řada konečná posloupnost reálných hodnot určitého sledovaného ukazatele měřeného v určitých

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ V následujícím textu se podíváme na to, co dělat, když jsou porušeny některé GM předpoklady. Nejprve si připomeňme, o jaké předpoklady

Více

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D. Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít

Více

Úlohy nejmenších čtverců

Úlohy nejmenších čtverců Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.

Více

1. Přednáška. Ing. Miroslav Šulai, MBA

1. Přednáška. Ing. Miroslav Šulai, MBA N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová Testování předpokladů pro metodu chain-ladder Seminář z aktuárských věd 4. 11. 2016 Petra Španihelová Obsah Datová struktura Posouzení dat Předpoklady metody chain-ladder dle T. Macka Běžná lineární regrese

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního

Více

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X

Více

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách 13 Regrese 13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách znaku X. Přitom je třeba vyřešit jednak volbu funkcí k vystižení dané závislosti a dále stanovení konkrétních

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

3 Bodové odhady a jejich vlastnosti

3 Bodové odhady a jejich vlastnosti 3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Diagnostika regrese pomocí grafu 7krát jinak

Diagnostika regrese pomocí grafu 7krát jinak StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců

Více

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně 7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností

Více

Aplikovaná numerická matematika

Aplikovaná numerická matematika Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více

Normální rozložení a odvozená rozložení

Normální rozložení a odvozená rozložení I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět

Více

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické

Více

STATISTICKÉ ZJIŠŤOVÁNÍ

STATISTICKÉ ZJIŠŤOVÁNÍ STATISTICKÉ ZJIŠŤOVÁNÍ ÚVOD Základní soubor Všechny ryby v rybníce, všechny holky/kluci na škole Cílem určit charakteristiky, pravděpodobnosti Průměr, rozptyl, pravděpodobnost, že Maruška kápne na toho

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

7 Regresní modely v analýze přežití

7 Regresní modely v analýze přežití 7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2014/15 Cvičení 5: Vícenásobná regrese, multikolinearita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Jednoduchá

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Úvod do problematiky měření

Úvod do problematiky měření 1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek

Více

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n [1] Základní pojmy [2] Matice mezi sebou sčítáme a násobíme konstantou (lineární prostor) měníme je na jiné matice eliminační metodou násobíme je mezi sebou... Matice je tabulka čísel s konečným počtem

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

MODEL TVÁŘECÍHO PROCESU

MODEL TVÁŘECÍHO PROCESU MODEL TVÁŘECÍHO PROCESU Zkouška tlakem na válcových vzorcích 2 Vyhodnocení tlakové zkoušky Síla F způsobí změnu výšky H a průměru D válce. V každém okamžiku při stlačování je přetvárný odpor definován

Více

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

I. D i s k r é t n í r o z d ě l e n í

I. D i s k r é t n í r o z d ě l e n í 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) . Statistika Teorie odhadu statistická indukce Intervalový odhad µ, σ 2 a π Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 21. února 2012 Statistika

Více

p(x) = P (X = x), x R,

p(x) = P (X = x), x R, 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více