Základy ekonometrie Příklady ze cvičení (ZS 2012)

Rozměr: px
Začít zobrazení ze stránky:

Download "Základy ekonometrie Příklady ze cvičení (ZS 2012)"

Transkript

1 Základy ekonometrie Příklady ze cvičení (ZS 2012) Katedra ekonometrie FIS VŠE v Praze, zouharj@vse.cz 1. října 2014 Pár slov úvodem. Zadání příkladů je rozděleno po jednotlivých cvičeních. Jedná se o orientační rozvržení je možné, že v průběhu semestru dojde z nejrůznějších důvodů ke skluzu. (Koneckonců, z toho důvodu je poslední 12. cvičení vyhrazeno na dodělávky a opakování.) Pokud budete na cvičení chybět a budete mít v plánu si neprobranou látku do příštího cvičení doplnit (což samozřejmě vřele doporučuji), zkuste se od svých kolegů informovat o tom, které příklady jsme probrali. Cvičení 1: Metoda nejmenších čtverců a R 2 Příklad 1.1 (Různé odchylky od přímky.) Je dána regresní přímka y = x + 1 a jedno pozorování hodnot x a y, které představuje bod A = [1, 1]. Vypočtěte, jaká je... a)... absolutní odchylka bodu A od regresní přímky. b)... čtvercová odchylka bodu A od regresní přímky. c)... ortogonální odchylka bodu A od regresní přímky. Příklad 1.2 (Metoda nejmenších čtverců a R 2 ruční výpočet.) V následující tabulce jsou zadány hodnoty veličin x (délka přípravy v hodinách) a y (body z testu) pro pět sledovaných průřezových jednotek: Eva, Vašek, Hynek, Vilém a Jarmila. Tyto jednotky jsou očíslovány v uvedeném pořadí od 1 do 5 a rozlišovány pomocí indexu i. i x i y i a) Uvažujte následující dvě regresní přímky popisující závislost y na x: p 1 : y = x, p 2 : y = x. Vypočtěte součet čtverců pro obě přímky a rozhodněte, která z nich je podle tohoto kritéria lepší. b) Nalezněte takovou přímku, která minimalizuje součet čtverců, tj. proveďte odhad regresní přímky pomocí metody nejmenších čtverců (mnč). Návod: při obecném vyjádření přímky ve tvaru y = ˆβ 0 + ˆβ 1 x zapište celkový součet čtverců jako funkci dvou proměnných ˆβ 0 a ˆβ 1 a najděte její globální minimum (vynulováním jejích parciálních derivací podle ˆβ 0 a ˆβ 1 ). c) O kolik se v průměru zvýší počet bodů s dodatečnou hodinou studia (podle odhadnuté regresní přímky)? (Jinak řečeno, jaká je průměrná absolutní pružnost bodů z testu vzhledem k počtu hodin přípravy?) d) Víte, že Emil se připravoval na test 2 hodiny. Kolik byste mu předpověděli bodů z testu? e) Vypočtěte pro vaši regresní přímku a všechna pozorování tzv. vyrovnané hodnoty (fitted values, ŷ) podle vztahu ŷ i = ˆβ 0 + ˆβ 1 x i. 1

2 f ) Vypočtěte pro vaši regresní přímku a všechna pozorování tzv. rezidua (residuals, e) podle vztahu e i = y i ŷ i. Pozn.: Nepočítali jste je náhodou už v jiném bodě tohoto příkladu jako mezikrok nějakého výpočtu? g ) Vypočtěte tzv. nevysvětlený součet čtverců (též reziduální, residual sum of squares, RSS) definovaný předpisem (ve zbytku tohoto příkladu budeme zkracovat zápis 5 i=1 na ) RSS = e 2 i = (y i ŷ i ) 2. Pozn.: viz součet čtverců pro přímku p 2 z a. h) Vypočtěte tzv. celkový součet čtverců pro proměnnou y (total sum of squares, TSS), TSS = (y i ȳ) 2, kde ȳ je průměrná hodnota proměnné y ve vašich datech, čili zde ȳ = 62. i) Vypočtěte tzv. vysvětlený součet čtverců pro proměnnou y (explained sum of squares, ESS), ESS = (ŷ i ȳ) 2. Rada: Co takhle namísto počítání podle předchozího vzorce využít identity o součtech čtverců? j) Vypočtěte koeficient determinace (R-squared, R 2 ) podle vzorce R 2 = ESS TSS = 1 RSS TSS. Příklad 1.3 (Zamyšlení nad R 2.) a) Jaká je přesná interpretace koeficientu determinace z předchozího příkladu? b) Po odhadu jisté regresní přímky vyšlo R 2 = 1. Co vám to říká o y, ŷ a e? c) Po odhadu jisté regresní přímky vyšlo R 2 = 0. Co vám to říká o ˆβ 0 a ˆβ 1? d) Jak moc vám pomůže znalost x při předpovědi hodnoty y, je-li R 2 = 0, R 2 = 0.6, R 2 = 1? Příklad 1.4 (Seznámení s Gretlem.) Otevřete soubor test.gdt v programu Gretl a ověřte, že v něm uložená data odpovídají příkladu s body z testu. a) Odhadněte regresní přímku pomocí mnč v Gretlu (Model Ordinary least squares). b) Najděte ve výstupu v Gretlu hodnoty ˆβ 0, ˆβ 1, ȳ, RSS a R 2. Jak byste dopočítali TSS a ESS? c) Zapište odhadnutou regresní funkci. Pozn.: odhadnutou regresní funkci zapisujeme ve tvaru ŷ = ˆβ 0 + ˆβ 1 x. d) Vykreslete graf s vašimi pozorováními body (x i, y i ) a odhadnutou regresní přímkou (Graphs Fitted, actual plot Against x). e) Uložte rezidua (e) a vyrovnané hodnoty (ŷ) jako nové proměnné (Save Residuals, Save Fitted values) a ověřte, že se shodují s výsledky vašich předchozích ručních výpočtů. f ) Najděte výběrový průměr reziduí (View Summary Statistics) a výběrový korelační koeficient mezi e and x (View Correlation Matrix). Je tento výsledek neočekávaný, nebo lze zobecnit i na jiné regresní přímky odhadnuté mnč? Vysvětlete. g ) Najděte výběrový korelační koeficient mezi y a ŷ, umocněte jej na druhou a porovnejte s R 2. Pozn.: Toto je vlastně původ označení R 2 statistici zpravidla označují výběrové korelační koeficienty písmenem r. Cvičení 2: Opakování základních statistických pojmů Příklad 2.1 (Tři charakteristiky polohy.) Přiřaďte každé z definic v seznamu a d jeden pojem ze seznamu ) Střední hodnota. 2) Medián. 3) Modus. 2

3 a) Nejpravděpodobnější (tj. nejběžnější) hodnota v populaci. b) Dlouhodobý průměr výsledků při opakovaném náhodném výběru z populace. c) Hodnota oddělující horní polovinu populace od spodní. d) Vážený průměr možných hodnot, kde váhy představují pravděpodobnosti (tj. relativní četnosti) jednotlivých hodnot. Příklad 2.2 (Průměrná, mediánová a modální mzda.) a) Průměrná měsíční mzda v populaci je e Vztahuje se termín průměrná mzda ke střední hodnotě, mediánu nebo modu populačního rozdělení mezd? b) Která mzda je zpravidla větší, the mediánová nebo průměrná? (Nebo jinak, vydělává většina lidí více nebo méně, nežli je průměrná mzda?) Příklad 2.3 (Výpočet střední hodnoty.) a) Uvažujme náhodnou veličinu (nv) x. Je možné, že Pr{x = Ex} = 0? (Např., je možné, že nikdo nevydělává přesně průměrnou mzdu?) b) Jaká je střední hodnota z hodu šestistěnnou kostkou? c) Uvažujte falešnou kostku, která dává výsledky 1 až 6 s různými pravděpodobnostmi, uvedenými v tabulce 1. Jaká je střední hodnota z hodu touto kostkou? Tabulka 1: Falešná kostka ξ Pr{x = ξ} Příklad 2.4 (Rozptyl a směrodatná odchylka.) a) Jak byste popsali pojem rozptyl (např. mezd v populaci) někomu, kdo neví nic o statistice? b) Obrázek 1 znázorňuje rozdělení dvou náhodných veličin (pomocí jejich hustot). Která z nich má větší rozptyl? c) nv x má následující characteristiky: Ex = 10, varx = 0. Co dalšího můžeme říci o x? d) Předpokládejte, že výška dospělého člověka má v populaci přibližně normální rozdělení se střední hodnotou 180 cm a rozptylem σ 2. Jaké procento dospělé populace spadá (z hlediska výšky) do rozpětí ±σ od populačního průměru (tj. do intervalu [180 σ, σ])? A jak je tomu při rozpětí ±2σ a ±3σ? Nakreslete obrázek, který situaci ilustruje. Obrázek 1: Dvě rozdělení s různými rozptyly Příklad 2.5 (Počítání se středními hodnotami a rozptyly.) Mějme nezávislé nv x a y, Vypočtěte: Ex = 10, Ey = 5, varx = 1, var y = 2. 3

4 a) E(4x). b) E(4x + 5). c) E(x + y). d) E(x y). e) E(4x 3y + 5). f ) var(4x). g ) var(4x + 5). h) var(x + y). i) var(x y). j) var(4x 3y + 5). Příklad 2.6 (Více kostek.) a) Představte si, že dvakrát hodíte šetstistěnnou kostkou a sečtete oba počty ok. Jaké jsou možné výsledky? Jaké jsou jejich pravděpodobnosti? Nakreslete výslednou pravděpodobnostní funkci. b) Jaká je střední hodnota a rozptyl nv z bodu a? (Rada: rozptyl při hodu jednou kostkou je ) c) Představte si součet ok při hodu 10 kostkami. Jaká je střední hodnota a rozptyl výsledku? Příklad 2.7 (Náhodný výběr a výběrový průměr.) Populační rozdělení počtu zubů (x) má střední hodnotu 20 a rozptyl 64. Chystáme se provést následující pokus. Náhodně vybereme 10 jedinců, změříme hodnotu x pro každého z nich (získáme tak hodnoty x 1, x 2,..., x 10 ), a pak spočteme prostý aritmetický průměr x = i=1 x i. Jelikož vybíráme jedince náhodně, je x náhodná veličina. a) Jaká je střední hodnota x? Jaký je rozptyl? b) (Zákon velkých čísel.) Místo 10 lidí nyní uvažujme n. Co se stane s E x a var x, jestliže postupně zvedáme n nade všechny meze? c) (Centrální limitní věta.) Opět máme náhodný výběr n jedinců, ale zajímáme se o hodnotu y = n( x 20) = Roste-li n, co se děje s rozdělením y? d) A co kdybychom nyní uvažovali veličinu z = y 64 = n i=1 (x i 20) n. x n Příklad 2.8 (Nestranné odhady.) Uvažujme náhodný výběr (x 1, x 2, x 3, x 4 ) z populace, v níž má sledovaný znak x neznámou střední hodnotu (označme ji jako µ) a neznámý rozptyl (označme jej σ 2 ). a) Je výběrový průměr x = i=1 x i nestrannou odhadovou statistikou (nebo stručně nestranným odhadem) populační střední hodnoty µ? (Připomeňme, že s je nestranná odhadová statistika parametru µ, je-li Es = µ.) b) Uvažujme namísto prostého aritmetického průměru vážený průměr podle předpisu w = 0.1x x x x 4. Je w nestranným odhadem µ? Které z obou statistik x a w byste při odhadu µ věřili víc? c) Je statistika s 2 = i=1 (x i x) 2 nestranným odhadem populačního rozptylu σ 2? Příklad 2.9 (Testování hypotéz.) Představitel opoziční politické strany tvrdí, že průměrná hrubá měsíční mzda (µ) klesla na 20 tisíc korun. Premiér se rozhodl udělat si malý průzkum, který má ukázat, že mzdy jsou ve skutečnosti vyšší. Hodlá náhodně vybrat 16 jedinců z ČR a dotázat se jich na jejich mzdu (x), čímž získá náhodný výběr (x 1, x 2,..., x 16 ). Na základě tohoto výběru chce provést test hypotézy, který snad poukáže na lživost výroku opozičního představitele. a) Jak by měl premiér volit nulovou a alternativní hypotézu (zapište formálně). b) Premiér se rozhodl provést test na hladině významnosti α = Co to znamená? Co přesně zde vyjadřuje číslo 0.05?? 4

5 c) Představte si, že po sběru dat vyjde najevo, že výběrový průměr ( x) činí Kč. Je to důvod pro zamítnutí nulové hypotézy? A co v případech, že x = , x = nebo x = ? d) Jistojistě víte, že rozptyl mezd v celé populaci činí Výběrový průměr vyšel Jaká je přibližně pravděpodobnost, že při platnosti nulové hypotézy vyjde výběrový průměr (při šestnácti dotázaných jedincích) vyšší nežli ? (Pozn.: pokud jste správně formulovali jednostrannou alternativní hypotézu, označuje se tato pravděpodobnost jako p-hodnota vašeho testu. Pro její výpočet využijte centrální limitní věty.) Můžete na základě tohoto výpočtu zamítnout nulovou hypotézu z bodu a na hladině významnosti 5%? e) Řešte stejný problém jako v předchozím bodě s tím, že populační rozptyl mezd neznáte, nýbrž pouze odhadujete na základě statistiky s 2 = i=1 (x i x) 2, jejíž hodnota vyšla f ) Vysvětlete, co je špatně na následující větě: Hodnota testové statistiky padla mimo kritický obor, tedy přijímáme nulovou hypotézu. Příklad 2.10 (Korelace & kovariance.) a) Řekli byste, že mzdy a vzdělání jsou pozitivně korelované, negativně korelované or nekorelované? Jak je tomu v případě mezd a tělesné výšky? b) Najděte příklad negativně korelovaných ekonomických veličin. c) Víme-li, že nv jsou negativně korelované, co nám to říká o jejich kovarianci? d) Jakých hodnot může nabývat kovariance dvou nv? e) Nechť x a y jsou nezávislé. Je možné, že cov(x, y) = 0.58? Proč? f ) Víme, že cov(x, y) = 0. Znamená to, že x a y jsou nutně nezávislé? (Pokud ne, zkuste najít nv, které jsou nekorelované navzdory tomu, že nejsou nezávislé.) g ) Jakých hodnot může nabývat korelační koeficient dvou nv? h) Která z následujících možností může nastat: 1) corr(x, y) = ) corr(x, y) = 0.28, cov(x, y) = 0. 3) corr(x, y) = 0.28, cov(x, y) = ) corr(x, y) = 0.28, cov(x, y) = 0.5. Proč? Jaký je vztah mezi kovariancí a korelačním koeficientem? Příklad 2.11 (Podmíněná střední hodnota.) a) Jaká je průměrná měsíční mzda v ČR? (Zkuste zhruba odhadnout.) b) Představte si, že potkáte někoho na ulici a dozvíte se, že dotyčný dokončil pouze základní školu, nežli začal pracovat. Změní tato informace vaší představu o jeho mzdě? c) Tipněte si hodnoty pro následující ukazatele: E(mzda vzdělání = 9), E(mzda vzdělání = 13), E(mzda vzdělání = 18). (Proměnná mzda je měsíční mzda jedince v Kč a vzdělání je zde vyjádrěno v letech, tj. 9 let vzdělání představuje zpravidla dokončenou základní školu a 18 let magisterský titul.) d) Na základě c zkuste od oka aproximovat E(mzda vzdělání ) pomocí lineárního vztahu E(mzda vzdělání ) = β 0 + β 1 vzdělání. e) Na základě d, jaký je očekávaný rozdíl mezd dvou jedinců, jejichž vzdělání se liší o 1 rok? Jinými slovy, jaká je hodnota E(mzda vzdělání ) vzdělání?) Příklad 2.12 (Podmíněný rozptyl.) Myslíte, že se rozptyl mezd liší v různých kategoriích podle dosaženého vzdělání? Konkrétně, je rozdíl mezi var(mzda vzdělání = 9) a var(mzda vzdělání = 18)? Cvičení 3: Lineární regresní model 5

6 Příklad 3.1 (Teoretická doplňovačka.) Vysvětlujeme-li y pomocí x prostřednictvím lineárního regresního modelu, předpokládáme, že veličina y se v ekonomice/populaci utváří podle vztahu y = β 0 + β 1 x + u, (1) kde u je neznámá (též disturbance) a β 0, β 1 jsou reálná čísla (konstantní parametry, které charakterizují danou ekonomiku/populaci). Koeficientu β 0 říkáme (též intercept). Veličinu u lze chápat jako souhrn vlivů všech dalších faktorů, které spolu s x utvářejí y. Hodnoty β 0, β 1 neznáme, ale máme-li k dispozici sadu pozorování pro veličiny x, y (v případě průřezových dat to bude tzv. ze zkoumané populace), můžeme hodnoty β 0, β 1 alespoň odhadnout (prostřednictvím vhodně zvolených odhadových statistik, též estimátorů, nebo méně korektně, ale stručně jen odhadů). Zatímco parametry β 0, β 1 jsou (neznámé) konstanty, jejich odhadové statistiky (označované zpravidla jako, ) jsou 1, má tedy smysl zabývat se jejich statistickými vlastnostmi, např. jejich střední hodnotou, nebo pravděpodobnostním. Ukáže-li se například, že E ˆβ 1 = β 1, říkáme, že ˆβ 1 je odhadem β 1. Pro odhad zpravidla používáme metodu. Důvodem je to, že tato metoda má řadu dobrých statistických vlastností (např. nestrannost, ale též třeba tzv. konzistenci a vydatnost); to ovšem jenom v případě, že jsou splněny - předpoklady (dále jen G-M předpoklady). Příklad 3.2 (G-M předpoklady šedá teorie.) Zapište stručně G-M předpoklady a řekněte, který z nich vylučuje přítomnost a) heteroskedasticity, b) autokorelace, c) perfektní multikolinearity. Pozn.: G-M předpoklady lze zapsat různým způsobem. Někteří autoři dokonce rozlišují různé varianty G-M předpokladů podle typu použitých dat (průřezová data, časové řady, panel), viz např. mnou doporučovaná Wooldridgeova učebnice. Příklad 3.3 (G-M předpoklady v praxi.) Uvažujte lineární regresní model mzda = β 0 + β 1 vzdělání + u, kde mzda představuje hrubou měsíční mzdu respondenta a vzdělání je měřeno v letech. a) Vysvětlete, proč je v modelu heteroskedasticita, neboli proč var(u vzdělání ) není konstantní (mění se s úrovní dosaženého vzdělání). Rada: Uvědomte si, že při dané hodnotě vzdělání je na pravé straně rovnice všechno kromě u konstantní, tedy var(u vzdělání ) = var(mzda vzdělání ), vizte též příklad b) Vysvětelete, proč v modelu neplatí, že E(u vzdělání ) je konstantní, a vysvětlete, který G-M předpoklad tato skutečnost porušuje. Rada: Ukažte, že u obsahuje vliv nějakého faktoru určujícího mzdu, který je korelovaný se vzděláním jedince. c) Víte, že výběr respondentů bude probíhat náhodným losováním jedinců z populace. Má smysl v takovém případě očekávat autokorelaci? Proč? Příklad 3.4 (Změna jednotek a odhadnuté koeficienty.) Data v souboru birth_weight.gdt pochází z článku J. Mullahyho (1997), cílem je odhadnout nežádoucí dopady matčina kouření cigaret v době těhotenství na zdraví plodu. Jedním ze snadno měřitelných indikátorů zdraví dítěte je jeho porodní váha. Uvažujte následující populační regresní funkci E(bwght cigs) = β a 0 + β a 1 cigs, (a) 1 Záleží totiž na tom, jaká konkrétní pozorování se nám podaří získat (např. při náhodném výběru z populace); jinak řečeno, jak to dopadne v našem výběrovém vzorku s hodnotami neznámé náhodné složky. 6

7 kde bwght ja váha plodu měřená v uncích (1 oz 28 g) a cigs je průměrný počet cigaret, které matka vykouřila za den v průběhu těhotenství. Oba dva ukazatele (porodní váhu i počet cigaret) bychom mohli samozřejmě vyjádřit i v jiných měřítkách: váhu bychom chtěli možná převést na gramy a počet cigaret bychom mohli třeba vyjádřit v krabičkách cigaret namísto v kusech. Místo proměných bwght a cigs bychom pak použili proměnné Uvažujte dále populační regresní funkce bwgram = 28bwght, packs = 1 20 cigs. E(bwght packs) = β b 0 + β b 1packs, E(bwgram packs) = β c 0 + β c 1packs. (b) (c) a) Jaký je vztah mezi koeficienty β a 0, β b 0 a β c 0? A mezi koeficienty β a 1, β b 1 a β c 1? b) S daty ze souboru birth_weight.gdt odhadněte modely (a), (b) a (c) a ověřte, že mezi odhadnutými koeficienty je stejný vztah, jako mezi skutečnými populačními hodnotami parametrů (které jste zkoumali v bodě a). Pozn.: Nejdříve bude potřeba vytvořit proměnné bwgram a packs. Toho docílíte následovně. Zvolíte v menu Add Define new variable... a do zobrazeného příkazového řádku zapíšete bwgram = 28*bwght, resp. packs = cigs/20. c) Kolik žen v datovém souboru nekouřilo během těhotenství? Jaký byl nejvyšší průměrný počet vykouřených cigaret? Rada: Zkuste třeba View Summary statistics nebo Data Sort data.... Příklad 3.5 (Model s konstantní elasticitou.) V tomto příkladu použijte datový soubor house1.gdt, který obsahuje charakteristiky domů prodávaných v roce 1981 v Andoveru, Massachusetts, z článku Kiel a McClain (1995). a) Odhadněte následující rovnici, která poukazuje na souvislost ceny nemovitostí se vzdáleností od nově vybudované městské spalovny odpadu: log(price) = β 0 + β 1 log(dist) + u, kde price je prodejní cena domu v dolarech a dist je vzdálenost od spalovny ve stopách. Rada: Logaritmy obou proměnných je třeba vytvořit před vlastním odhadem pomocí funkce Add Logs of selected variables. Pak již lze odhadovat klasickou mnč, ovšem již s nově vytvořenými proměnnými l_price a l_dist. b) Zapište odhadnutou regresní rovnici a interpretujte koeficient u proměnné log(dist). c) Jaké další faktory ovlivňují prodejní cenu domu? Jsou některé z nich korelovány se vzdáleností od spalovny? Jaké to má důsledky ohledně naplnění G-M předpokladů? Cvičení 4: Statistické vlastnosti MNČ Příklad 4.1 (Teoretická doplňovačka.) V příkladu 3.1 jsme si připomněli, že zatímco koeficienty β j v LRM jsou (neznámé) konstanty, jejich odhady ˆβ j pořízené libovolnou odhadovou technikou jsou náhodné veličiny, neboť závisí na realizaci náhodného výběru z populace. Jsou-li splněny G-M předpoklady, je nejvýhodnější za odhadovou techniku volit MNČ, neboť vykazuje řadu příjemných statistických vlastností, konkrétně, a. říká, že E ˆβ j = β j, neboli při opakovaném náhodném výběru vzorku z populace a následném odhadu parametrů nedochází k systematickému ani vlivu jednotlivých proměnných. Nestrannost není ovšem měřítkem přesnosti odhadů; za ukazatel přesnosti nestranného odhadu ˆβ j se zpravidla bere jeho. Vlastnost MNČ nazývaná (též eficience) říká, že MNČ je ze všech nestranných lineárních technik v průměru nejpřesnější (měřeno čtvercovou odchylkou od skutečné hodnoty parametru), tj. její odhady mají. 7

8 Zatímco a jsou vlastnosti, které se týkají použití MNČ na výběrových souborů libovolného rozsahu, je vlastnost asymptotická, tj. hovoří o tom, co se děje, pokud (n) roste nade všechny meze. Konkrétně říká, že lim Pr{ ˆβ j β j ε } = 0 pro libovolné ε > 0, n neboli = β j. Jelikož rozptyl odhadu ˆβ j slouží jako základní měřítko jeho přesnosti, je třeba umět tento rozptyl odhadnout. K tomu je nejprve třeba dhadnout rozptyl náhodné složky u, který typicky značíme jeho odhad se pak označuje většinou s 2. Potíž je, že náhodnou složku neznáme (nemáme pro ni data); pro příslušný odhad tedy místo ní použijeme. Lze ukázat, že nestranný odhad rozptylu u lze získat jako s 2 =, kde k je počet vysvětlujících proměnných. Rozptyl odhadu ˆβ j 1 při daných hodnotách vysvětlujících proměnných, potom odhadneme jako j-tý diagonální prvek matice, kde matice X obsahuje v prvním sloupci samé jednotky a v j-tém hodnoty pozorování proměnné x j 1. Odmocnině z odhadu rozptylu ˆβ j říkáme odhadu ˆβ j, anglicky standard error, a značíme s ˆβj. Abychom mohli konstruovat intervaly spolehlivosti a provádět testy hypotéz a ohledně hodnot parametrů β j, nestačí znát jen střední hodnotu a rozptyl pro odhady jednotlivých parametrů; potřebujeme vědět, jaké mají. Ukazuje se, že je výhodné mluvit nikoli přímo o rozdělení odhadů, nýbrž o rozdělení standardizovaných odhadů spočtených jako ˆβ j β j, jejichž rozdělení se při splnění G-M předpokladů blíží k (vzorec) při n, tj. pro velké výběry. Pro malé výběry musíme přijmout další předpoklad (nad rámec G-M), a sice předpoklad o složky. Standardizované odhady pak mají rozdělení s stupni volnosti, kde k je počet vysvětlujících proměnných. Příklad 4.2 Vysvětlete, co je špatně na následujících tvrzeních. Všechny se vztahují k odhadům LRM (1). a) Používám nestrannou odhadovou metodu. Nemusím se tedy bát, že můj odhad parametru β 1 bude o hodně vyšší, nežli je jeho skutečná hodnota. b) Moje odhadová technika systematicky nadhodnocuje vliv proměnné x. To znamená, že odhad koeficientu β 1 bude vyšší, nežli je jeho skutečná hodnota. c) Odhadová technika A je vydatnější nežli odhadová technika B. To znamená, že odhady pořízené pomocí A jsou vždy přesnější než odhady pořízené pomocí B. Příklad 4.3 (Monte Carlo.) Na přednáškách zkoumáte statistické vlastnosti MNČ analytickými prostředky. Existuje ještě jiná možnost, a sice počítačová simulace (někdy též nazývaná metodou Monte Carlo). Uvažujte lineární regresní model y = β 0 + β 1 x + u, β 0 = 5, β 1 = 10, (2) který splňuje všechny G-M předpoklady, a náhodný výběr o 15 pozorováních. Proveďte následující simulaci v MS Excel (můžete využít soubor MonteCarlo.xls). a) Náhodně generujte hodnoty x a u pro vašich 15 pozorování a zapište je do dvou sloupců. Použijte funkci RANDBETWEEN tato funkce vrací náhodná celá čísla mezi zadanými mezemi. Pro x můžete použít libovolné meze, nicméně aby byly splněny G-M předpoklady, Eu musí být rovno nule. Horní a dolní mez pro u musí tedy být opačná čísla; jinými slovy, použijte RANDBETWEEN( u max, u max ). b) Vytvořte sloupce pro y a E[y x]; ty budou dopočítány podle (2). 8

9 c) Nakreslete bodový diagram (scatterplot) pro y vs. x a přidejte do něj přímku E[y x] = β 0 +β 1 x. Za opakovaného stisku klávesy F9 sledujte, jak se vyvíjejí hodnoty pro váš náhodný výběr. Co představuje v grafu náhodná složka u? d) Spočtěte odhady ˆβ 0 a ˆβ 1 pořízené MNČ pomocí funkcí INTERCEPT a SLOPE. Pak vypočítejte vyrovnané hodnoty vysvětlované proměnné (ŷ) a rezidua (e). Přidejte do grafu získanou regresní funkci, tj. přímku ŷ = ˆβ 0 + ˆβ 1 x. Opět tiskněte F9 a posuďte, jak blízko jsou ke skutečným hodnotám β 0 a β 1. Který z dvou odhadů bývá v průměru přesnější, ˆβ 0 nebo ˆβ 1? Co představují v grafu rezidua e? e) Desetkrát stiskněte F9, zapište výsledné hodnoty ˆβ 0 a ˆβ 1 a pak spočtěte prostý aritmetický průměr ze všech deseti pokusů pro ˆβ 0 a ˆβ 1. Jaké výsledky byste očekávali, kdybychom provedli tisíc pokusů místo deseti? f ) Otevřete soubor MonteCarlo2.xls. Je zde zautomatizován experiment z bodu e pro tisíc pokusů. Všech tisíc hodnot pro ˆβ 0 a ˆβ 1 je zapsáno ve sloupcích W a AC. Ve stejných sloupcích lze vyčíst i průměr a výběrovou směrodatnou odchylku ze všech 1000 pokusů. Porovnejte směrodatné odchylky pro ˆβ 0 a ˆβ 1. Odpovídá rozdíl těchto hodnot vašim předchozím závěrům ohledně přesnosti jednotlivých odhadů? g ) Histogramy napravo zachycují relativní četnosti pro ˆβ 0 (zelená) a ˆβ 1 (modrá) v rámci všech 1000 pokusů. Tyto grafy nám napovídají něco o pravděpodobnostních rozděleních náhodných veličin ˆβ 0 a ˆβ 1. Připomínají vám histogramy svým tvarem nějaké důvěrně známé rozdělení? h) Vytvořte nový soubor v MS Excel a uložte do prvních dvou sloupců aktuálních 15 hodnot proměnných x a y. Následně načtěte data z tohoto souboru do Gretlu a odhadněte lineární regresní model y = β 0 + β 1 x + u pomocí MNČ. Co vám říkají hodnoty ve sloupci std. error? Odpovídají jejich hodnoty podobným údajům zjištěným na základě Monte Carlo simulací? Co je nejspíš přesnějším měřítkem rozptylu odhadů, čísla ve sloupci std. error v Gretlu nebo směrodatné odchylky spočítané ze souboru 1000 pokusů pro ˆβ 0 a ˆβ 1? Příklad 4.4 (Asymptotika.) Společnost Klapeme, s. r. o., pořádá intenzivní tréninkové kurzy v psaní všemi deseti. Jejím cílem je odhadnout model, který porovnává hodiny tréninku (trénink) s počtem překlepů na jednu přepisovaného textu (překlepy). Bude proto odhadovat lineární regresní model překlepy = β 0 + β 1 trénink + u. Představme si, že by firma postupně sbírala údaje o náhodném souboru 10 lidí, 20, lidí, 100 lidí, 1000 lidí atd. a pokaždé odhadla koeficienty β 0 a β 1. Předpokládejme, že jsou v modelu splněny všechny G-M předpoklady. Určete, které z následujících statistik se budou někam systematicky vyvíjet (nahoru či dolů) a uveďte kam. U ostatních (které budou oscilovat nesystematicky) určete, zdali se s rostoucím rozsahem výběru bude ustalovat jejich hodnota okolo určité úrovně. a) odhadnuté koeficienty, b) odhad rozptylu náhodné složky, c) směrodatné chyby (standard errors) odhadovaných koeficientů, d) R 2. Co se bude dít s t-poměrem pro trénink (t b1 = b 1 /s b1 ), předpokládáme-li, že... a)... trénink je zcela k ničemu. b)... trénink pomáhá při omezení překlepů. Lze v tomto případě nějak snadno určit asymptotické pravděpodobnostní rozdělení pro t-poměr? Cvičení 5: Vícenásobná regrese Příklad 5.1 Vaším záměrem je provést pro studenty VŠE studii, která se se zabývá vztahem mezi studijním průměrem a časem stráveným různými aktivitami. Máte k dispozici výsledky ankety, ve které studenti rozdělili celý svůj průměrný týden mezi následující čtyři kategorie: studium, práce, zábava a spánek. Studenti měli za úkol roztřídit veškeré své aktivity mezi tyto čtyři kategorie, čili součet hodin strávených ve všech kategoriích musí dát

10 a) Uvažujte lineární regresní model stud_průměr = β 0 + β 1 studium + β 2 práce + β 3 zábava + β 4 spánek + u. (3) Mohou se dvě pozorování (např. i-tý a j-tý student) lišit pouze v jedné vysvětlující proměnné? b) Vysvětlete, proč vysvětlující proměnné v modelu (3) porušují G-M předpoklady. c) Navrhněte nějakou změnu modelu (3) tak, aby byl odstraněn problém s G-M předpoklady, a koeficienty modelu (tj. β j ) měly přitom interpretaci, která se vztahuje k původnímu zadání. Uveďte interpretaci koeficientů v upraveném modelu. Příklad 5.2 (Spánek vs. práce.) Následující model je zjednodušenou verzí modelu z článku Biddleho a Hamermeshe (1990), který mj. zkoumá, zda lidé kompenzují delší pracovní dobu zkrácením délky spánku: sleep = β 0 + β 1 totwrk + β 2 educ + β 3 age + u, kde sleep a totwrk (total work) jsou vyjádřeny v minutách za týden a educ (education) a age jsou měřeny v letech. a) Pokud lidé kompenzují delší pracovní dobu kratším spánkem, jaké je znaménko β 1? b) I v případě, že model je zcela správně specifikován (a všechny G-M předpoklady jsou splněny), musí nutně vyjít stejné znaménko i u ˆβ 1? c) Co si myslíte o znaménkách koeficientů β 2 a β 3? d) Data o výběrovém vzorku obsahuje souboru sleep.gdt, odhadněte uvažovaný model a zapište odhadnutou regresní funkci. e) Přesně interpretujte odhadnuté koeficienty. f ) Pokud se někdo rozhodne pracovat o 5 hodin týdně víc, jaké zkrácení jeho doby spánku byste očekávali? Je to velká kompenzace? g ) Vysvětlují proměnné totwrk, educ, a age velkou část výběrové variability proměnné sleep? Jaké další faktory ovlivňují délku spánku? Mohou být některé z nich korelovány s totwrk? Který z G-M předpokladů by to porušilo? h) Máte za úkol provést na 5% hladině významnosti statistický test s hypotézami H 0 : β 2 = 0, H 1 : β 2 0. Vysvětlete, co přesně říká nulová hypotéza, a následně test vyhodnoťte. i) Změnil by se závěr předchozího testu, pokud bychom použili jednostrannou alternativu H 1 : β 2 < 0? Příklad 5.3 (Nízké R 2.) Pro tento příklad použijte soubor birth_weight.gdt (se kterým jsme pracovali už v příkladě 3.4). a) Odhadněte rovnici log(bwght) = β 0 + β 1 cigs + β 2 log(faminc) + β 3 male + β 4 parity + β 5 white + u a zapište odhadnutou regresní funkci v rovnicovém tvaru, včetně směrodatných chyb. Rada: Můžete po odhadu rovnice využít funkce File View as equation. b) Interpretujte získané R 2. Myslíte, že jeho hodnota snižuje použitelnost modelu? c) Máte testovat, zda je vliv kouření ceteris paribus statisticky významný na hladině významnosti 5 %. Formulujte formálně nulovou a alternativní hypotézu (použijte oboustrannou alternativu). Test následně vyhodnoťte pomocí 95% intervalu spolehlivosti pro koeficient β 1, který vypočtěte podle přibližného vztahu neboli v Gretlu bodový odhad ± 2 směrodatná chyba, coefficient ± 2 std. error. Poté výsledek porovnejte s výsledkem Analysis Confidence intervals for coefficients. Co přesně nám říká 95% interval spolehlivosti? Myslíte, že je vliv kouření v těhotenství odhadnutý dostatečně přesně? 10

11 Příklad 5.4 (Ojeté škodovky interpretace, dummy proměnné atd.) Data, se kterými se pracuje v tomto příkladě, pocházejí z ledna 2004 a týkají se 328 ojetých vozů značky Škoda; konkrétně jde o modely Octavia, Felicia a Superb. Shromáždil jsem je kdysi pro účely semestrální práce na předmět Statistika a SPSS na této škole. a) Prohlédněte si obsah souboru škoda_původní.xls a zamyslete se, jak kvantifikovat do ekonometrických proměnných údaje o modelu vozu, použitém palivu a objemu motoru. b) Ve zbylých úkolech pracujte se souborem škoda.gdt. Otevřete jej v Gretlu a podívejte se, jak jsou kvantifikovány jednotlivé proměnné. Rada: Zobrazení dat, které nejvíce připomíná databázi z tabulkového kalkulátoru typu MS Excel, se vyvolá pomocí View Icon view Data set. c) Odhadněte LRM, který vysvětluje cenu vozidla pomocí proměnných km a stari a interpretujte odhadnuté koeficienty u jednotlivých regresorů. Lze nějak smysluplně interpretovat i intercept? Připadá vám jeho výše rozumná? d) Nechte otevřené okno s předchozím výstupem a odhadněte LRM, který vysvětluje cenu vozidla pomocí proměnných km a rok. Sledujte rozdíly oproti předchozímu modelu. Jak byste interpretovali konstantu v tomto případě? e) Odhadněte lineární regresní model, který vysvětluje cenu vozidla pomocí všech dostupných regresorů. Proč byly z modelu vyřazeny některé proměnné? Vysvětlete. f ) Odhadněte model znovu, tentokrát vynechejte vysvětlující proměnné rok, felicia a benzin. Interpretujte koeficienty a porovnejte je s předchozími výsledky. g ) Zkuste vytvořit co nejlepší model vysvětlující cenu ojeté škodovky. Je zde lineární tvar regresního modelu na místě? Zkuste odpověď ekonomicky zdůvodnit, zvažte (a následně odhadněte) jiný funkční tvar modelu. Důsledně interpretujte odhadnuté koeficienty a porovnejte je s předchozími výsledky. h) Jakou cenu byste požadovali (v lednu 2004) za škodu Felicii, která má najeto km, motor 1.9D a je vyrobena v roce 1998? Návod: Pokud jste v předchozím bodě pracovali podle mých očekávání, berete za vysvětlovanou proměnnou log(cena). Predikce v takovém případě není úplně jednoduchá, viz Wooldridge (2002), str Cvičení 6: Vícenásobná regrese II Příklad 6.1 (Lineární restrikce koeficientů.) a) Uvažujte model, který vysvětluje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper), a době strávené u aktuálního zaměstnavatele (v letech, tenure), ve tvaru log(wage) = β 0 + β 1 educ + β 2 exper + β 3 tenure + u, b) Formulujte nulovou hypotézu, že dodatečný rok všeobecných pracovních zkušeností má stejný dopad na mzdu jako další rok strávený u stávajícího zaměstnavatele. c) Odhadněte zadaný model pomocí dat ze souboru wages.gdt. Testujte hypotézu z bodu b proti oboustranné alternativě na hladině významnosti 5%. Příklad 6.2 (Interakce proměnných, F -test a multikolinearita.) Pracujte opět s daty v souboru škoda.gdt, se kterými jste pracovali již v příkladu 5.4. a) Budeme se zajímat o rozdíly mezi Octaviemi a Feliciemi. Jelikož Superby v našem výběrovém souboru svými charakteristikami značně vybočují (v roce 2004 byly všechny existující Superby poměrně nová auta), budeme je chtít z výběrového souboru pro následující výpočty vypustit. Omezte tedy výběrový soubor pouze na ta pozorování, kde superb = 0. Návod: Použijte funkci Sample Restrict, based on criterion. b) Vaším cílem je zjistit, zdali se pro Octavie a Felicie liší přirážka za variantu kombi. Odhadujete proto model cena = β 0 + β 1 octavia + β 2 kombi + β 3 octavia kombi + u. 11

12 Vysvětlete přesně, jakou interpretaci budou mít jednotlivé parametry. Následně formulujte hypotézu, že přirážka za kombi variantu je pro oba modely shodná. Nakonec model odhadněte a hypotézu testujte na 5% hladině proti jednostranné alternativě, že přirážka za kombi je vyšší pro Octavie. c) Vysvětlete, proč předchozí model neposkytl netranný odhad rozdílu přirážky v důsledku kombi varianty. Jinými slovy, ukažte, že nejde o rozdíl v přirážce ceteris paribus. Následně se pokuste formulovat model, který bude v tomto ohledu vyhovovat lépe, a opakujte test hypotézy z předchozího bodu. d) Odhadněte model, který bude vysvětlovat logaritmus ceny vozu pomocí všech dostupných proměnných (již víte, že některé z proměnných udávajících model a palivo je třeba vynechat; vynechejte proto proměnné octavia a benzin). Následně formulujte a testujte hypotézu, že palivo nemá vliv na výši ceny (ceteris paribus). e) Spočtěte tzv. VIF ukazatel v předchozím modelu pro proměnnou stari: odhadněte pomocný model, který vysvětluje stáří vozu pomocí proměnných udávajících najeté kilometry, model, typ karoserie a palivo, a spočtěte VIF stari = 1/ ( 1 R 2 stari), kde R 2 stari je koeficient determinace z pomocné regrese. f ) Dopočtěte VIF pro ostatní proměnné pomocí procedury Tests Collinearity v okně s výstupem pro model z bodu d. Příklad 6.3 (Kvadratická regrese.) Pro tento příklad použijte data ze souboru wages.gdt. a) Odhadněte lineární regresní model ve tvaru wage = β 0 + β 1 exper + β 2 exper 2 + u a zjistěte, zdali mají zkušenosti jedince (vyjádřené v letech) vždy pozitivní vliv, či zda mohou po určitém počtu let z hlediska mzdy spíše škodit. Pokud ano, najděte takovou hodnotu exper, kdy začínají dodatečné zkušenosti snižovat mzdu ( bod zlomu ). Diskutujte možné zkreslení závěrů při použití uvedeného modelu. b) Na základě bodu a zjistěte, s jakým přírůstkem mzdy je spojen pátý rok zkušeností. c) Řešte analogický problém jako v bodu a s tím, že tentokrát použijete logaritmované mzdy, tj. budete pracovat s modelem log(wage) = β 0 + β 1 exper + β 2 exper 2 + u. d) Na základě bodu c zjistěte, s jakým přírůstkem mzdy je spojen pátý rok zkušeností. Použijte přitom aproximaci % wage. = 100( ˆβ ˆβ 2 exper) exper. e) Odhadněte lineární regresní model ve tvaru wage = β 0 + β 1 exper + β 2 exper 2 + β 3 educ + β 4 female + u a formulujte hypotézu, že vliv pracovních zkušeností není významný. Následně tuto hypotézu testujte na 5% hladině významnosti. f ) Zjistěte, zda se výnosnost investice do vzdělání (returns to education) liší pro muže a ženy (použijte vhodný regresní model, který bude obsahovat interakci female educ). g ) Nahraďte v předchozím modelu interakci female educ výrazem female (educ 12.5). Porovnejte v obou modelech koeficient u proměnné female a diskutujte rozdíly. h) Zjistěte, zda se výnosnost investice do vzdělání liší pro občany bílé pleti a pro ostatní. i) Odhadněte model, ve kterém se výnosnost investice do vzdělání liší podle dosažených zkušeností. Testujte nulovou hypotézu, že výnosnost investice na aktuální úrovni zkušeností nezávisí. Cvičení 7: Heteroskedasticita 12

13 Příklad 7.1 (Teoretická doplňovačka.) Vyskytuje-li se v našem LRM heteroskedasticita, znamená to, že je porušen jeden z - předpokladů, konkrétně ten, který vyžaduje, aby byl konstantní (a konečný); matematicky zapsáno, =, kde x představuje vektor všech vysvětlujících proměnných a σ 2 je nějaké kladné reálné číslo. Již jsme si uvedli příklad modelů, ve kterých se zdá zřejmé, že tento předpoklad bude porušen viz třeba příklad 3.3. Obecně vzato, heteroskedasticita se vyskytuje jak u průřezových dat, tak v časových řadách. U průřezových dat zpravidla předpokládáme, že se rozptyl náhodné složky systematicky mění s hodnotami jedné nebo několika vysvětlujících proměnných. U časových řad existuje navíc možnost, že rozptyl náhodné složky kolísá. Heteroskedasticita nestrannost a konzistenci odhadů regresních koeficientů pořízených. Je ovšem zřejmé, že nejsou korektně spočteny veškeré ukazatele, při jejichž výpočtu se pracuje se σ 2 (neboť při heteroskedasticitě nemá smysl počítat s jedním číslem, které by charakterizovalo rozptyl náhodné složky pro všechna pozorování). Konkrétně, nejsou korektní výsledky ohledně chyb, čili ani výsledky -testů a -testů. Vztaženo k výstupu z Gretlu, nemá smysl se příliš zabývat výsledky v posledních (doplňte číslovku) sloupcích výsledkové tabulky a v. řádku výstupu pod tabulkou. Přítomnost heteroskedasticity lze statisticky testovat. Jelikož chceme zjistit něco o náhodné složce u, jejíž hodnoty však neznáme, používáme pro účely testování hodnoty, spočtené po odhadu modelu pomocí MNČ. Statistické testy heteroskedasticity lze dělit na a. První z nich se vyznačují tím, že předpokládáme nějaký konkrétní funkční tvar závislosti rozptylu náhodné složky na hodnotách vysvětlujících proměnných a odhadujeme parametry této funkce. Patří sem například test nebo - test. V obou těchto testech se postupuje nejprve tím způsobem, že se odhadne pomocný LRM, který vysvětluje hodnotu (která aproximuje rozptyl náhodné složky) pomocí všech vysvětlujících proměnných z původního modelu ( test zde zahrnuje i druhé mocniny a interakce těchto proměnných). Pokud je v modelu, neměly by být v této pomocné regresi vysvětlující proměnné jako celek statisticky významné pro vyhodnocení lze tedy použít -test. Tradičně se ovšem používají i jiná kritéria, konkrétně tzv. LM -statistika, spočtená jako, kde n je počet pozorování a Re 2 je koeficient determinace z pomocné regrese. Tato statistika se testuje proti 2 kritickým hodnotám rozdělení s stupni volnosti, kde p je počet odhadovaných parametrů v pomocné regresi. Příkladem testu je Spearmanův test korelace pořadí. Vychází z myšlenky, že pokud se rozptyl náhodné složky systematicky vyvíjí s hodnotami proměnné x, potom by mělo být korelováno pořadí pozorování podle e a podle x. Počítá se proto Spearmanův podle vzorce r e,x = 1 6 n i=1 d2 i n(n 2 1). Jeho možné hodnoty jsou mezi a, hodnoty poblíž obou těchto extrémů indikují přítomnost. Ná základě r e,x lze též konstruovat statistický test, jehož testová statistika se dopočte z r e,x a porovnává se s kvantily Studentova rozdělení. Pro praktické použití je důležité si pamatovat, že nulová hypotéza u všech testů heteroskedasticity říká, že náhodná složka u je. Nízké p-hodnoty tedy poukazují na heteroskedasticity. Příklad 7.2 (Testování heteroskedasticity.) Pro tento příklad použijte soubor house2.gdt. a) Odhadněte rovnici price = β 0 + β 1 lotsize + β 2 sqrft + β 3 bdrms + u a uložte druhou mocninu reziduí, tj e 2 (Save Squared residuals). 13

14 b) Proveďte Breuschův-Paganův test heteroskedasticity: odhadněte rovnici e 2 = γ 0 + γ 1 lotsize + γ 2 sqrft + γ 3 bdrms + ε a testujte nulovou hypotézu o současném vynulování parametrů γ 1, γ 2, γ 3. Poté spočtěte hodnotu LM -statistiky a porovnejte ji s 95% kvantilem χ 2 3. Jaké jsou závěry testů ohledně přítomnosti heteroskedasticity? c) Proveďte Whiteův test heteroskedasticity: vysvětlete e 2 pomocí proměnných lotsize, sqrft, bdrms, lotsize 2, sqrft 2, bdrms 2, lotsize sqrft, lotsize bdrms, sqrft bdrms a testujte hypotézu o současném vynulování koeficientů u těchto proměnných. Poté opět testujte pomocí LM -testu. Jaký bude v tomto příkladě počet stupňů volnosti pro použité χ 2 rozdělení? d) Odhadněte model z bodu a znovu, tentokrát však pracujte se vzorcem pro výpočet směrodatných chyb, který je robustní vůči heteroskedasticitě. Jak se změnily intervalové odhady a závěry z testů hypotéz? e) Odhadněte model metodou zobecněných nejmenších čtverců (MZNČ, Model Other linear models Heteroskedasticity corrected) a porovnejte s předchozími výsledky. f ) Opakujte body a, b, c pro model log(price) = β 0 + β 1 log(lotsize) + β 2 log(sqrft) + β 3 bdrms + u. Pozn.: Logaritmická transformace vysvětlované proměnné často pomůže snížit míru heteroskedasticity. Příklad 7.3 (Spearman korelující, testující.) Hodnoty proměnné x v lineárním regresním modelu y = β 0 + β 1 x + u a hodnoty reziduí získané po odhadu parametrů pomocí MNČ jsou uvedeny v následující tabulce. Pomocí Spearmanova koeficientu korelace pořadí vyšetřete, zda je v modelu přítomna heteroskedasticita. i x i e i Příklad 7.4 (Cobbova-Douglasova produkční funkce.) Soubor CDPF.gdt obsahuje data o 868 zemědělských firmách, jmenovitě záznamy o roční produkci obilovin (produkce), použitém množství hnojiva NPK (hnojivo) a spotřebě energie a maziv (energie), vždy vztaženo k hektaru půdy. a) Odhadněte Cobbovu-Douglasovu produkční funkci pro uvedené vstupy a výstup a zapište její výsledný tvar. b) Určete charakter výnosů z rozsahu pro vaši produkční funkci. Testujte na 5% hladině nulovou hypotézu, že výnosy z rozsahu jsou konstantní. c) Určete elasticitu (tj. relativní pružnost) produkce vůči změnám v použitém množství hnojiva. d) Určete mezní míru technické substituce hnojiva za energii. e) Určete elasticitu substituce hnojiva za energii. Cvičení 8: Úvod do práce s časovými řadami Příklad 8.1 (Trendy lososi.) V souboru losos.gdt najdete časovou řadu popisující roční výlov lososů norskými rybářskými společnostmi (losos) a údaje o hrubém domácím produktu USA (gdp) za roky a) Odhadněte rovnici gdp t = β 0 + β 1 losos t + u t a otestujte, zda je β 1 statisticky významně odlišné od nuly. Co vám říká výsledek o provázanosti rybolovu v Norsku a HDP v USA? Vysvětlete. 14

15 b) Odhadněte stejný model s tím, že nejprve očistíte proměnnou gdp o lineární trend. Nejprve přidejte v Gretlu proměnnou t, která bude v roce 1983 nabývat hodnoty 1, v roce 1984 hodnoty 2 atd. Nejsnáz toho docílíte volbou Add Time trend. Poté odhadněte rovnici gdp t = α 0 + α 1 t + ε t a uložte výsledná rezidua pod názvem gdpoc (tato rezidua představují HDP v USA očištěný o lineární trend). Nakonec odhadněte rovnici gdpoc t = β 0 + β 1 losos t + u t. Co říkají nové výsledky o vztahu obou veličin? c) Odhadněte rovnici gdp t = β 0 + β 1 losos t + β 2 t + u t a porovnejte s výsledky z bodu b. Příklad 8.2 (Lineární vs. exponenciání trend.) V souboru HDP.xls najdete údaje o HDP v ČR v letech Nejprve importujte data do Gretlu a zvolte příslušný formát časové řady. Poté popište vývoj HDP v čase pomocí a) lineárního trendu, tj. odhadněte model b) exponenciálního trendu, tj. odhadněte model hdp t = β 0 + β 1 t + u t, ln(hdp t ) = β 0 + β 1 t + u t. V obou případech důsledně interpretujte koeficient β 1. Příklad 8.3 (Logistický růstový model.) V souboru mycka.xls najdete údaje o vývoji vybavenosti domácností v ČR myčkou nádobí v letech (hodnoty představují počet domácností v tisících). Odhadněte logistický růstový model pro vybavenost myčkou za předpokladu, že potenciální velikost celého trhu je 4 mil. domácností. Určete a interpretujte inflexní bod odhadnuté logistické S-křivky. Příklad 8.4 (Sezónní ochutnávka.) Měsíční a čtvrtletní makroekonomické časové řady se zpravidla vykazují v podobě sezónně očištěných údajů; bývá problém vůbec se dostat k původním neočištěným údajům. V případě, že pracujete s neočištěnými údaji, je dobré vědět, že existuje jedna velmi jednoduchá metoda pro posouzení a korekci sezónnosti, založená na použití dummy proměnných. a) Soubor durgoods.gdt obsahuje čtvrtletní údaje o prodeji předmětů dlouhodobé spotřeby v USA v letech Otevřete tento soubor a sdělte Gretlu, že se jedná o čtvrtletní časovou řadu (Data Dataset structure). b) Vytvořte dummy proměnné q 1t až q 4t definované jako { 1 pro pozorování z i-tých čtvrtletí, q it = 0 jinak. V Gretlu toho docílíte snadno volbou Add Periodic dummies. Následně odhadněte model dish t = β 0 + β 1 q 1t + β 2 q 2t + β 3 q 3t + u t. O kolik se v průměru liší prodeje myček (dish) v poslední čtvrtletí oproti prvnímu? c) Formulujte nulovou hypotézu, že prodeje myček nepodléhají sezónním výkyvům. Následně ji testujte na 5% hladině významnosti. d) Proveďte stejnou analýzu i pro ledničky a pračky. Který z výrobků vykazuje při prodeji sezónnost? Uměli byste vaše výsledky nějak ekonomicky zdůvodnit? 15

16 e) Pro model popisující pračky si nechte vykreslit graf s původní i sezónně očištěnou časovou řadou (Graphs Fitted, actual plot...). Příklad 8.5 (Dynamická CDPF.) V souboru farms.gdt najdete agregovaná data o zemědělské výrobě v USA za roky 1948 až a) Odhadněte model ln(output t ) = β 0 + β 1 ln(labor t ) + β 2 ln(machines t ) + u t. Interpretujte odhadnuté koeficienty a vysvětlete, proč nejsou v souladu s apriorními očekávání jejich hodnot. Diskutujte možné příčiny. b) Odhadněte dynamickou Cobbovu-Douglasovu produkční funkci, tj. model output t = β 0 labor β1 t machines β2 t e β3 t+ut, interpretujte získané odhady a porovnejte výsledky s bodem a. Cvičení 9: Autokorelace Příklad 9.1 Autokorelace se vyskytuje především při práci s. Jedná se o porušení jednoho z - předpokladů, konkrétně toho, který požaduje, aby (zapište vzorcem) pro všechna s různá od t. Při její detekci zpravidla předpokládáme, že náhodné složky u t jsou generovány procesem (tzv. AR(1) procesem), který má předpis u t =, (4) kde ρ představuje koeficient prvního řádu a ε t jsou v čase nekorelované náhodné složky s nulovou střední hodnotou a konstantním a konečným rozptylem. Aby byl AR(1) proces stacionární, musí být hodnota ρ mezi a. Je-li ρ > 0, hovoříme o autokorelaci, pokud ρ < 0, jde o autokorelaci. Koeficient ρ se zpravidla odhaduje tak, že do rovnice (4) dosadíme namísto neznámých hodnot náhodné složky (u t ) známá, získaná po odhadu původní rovnice (y = x β + u) metodou nejmenších čtverců. Namísto (4) tak získáme rovnici = + ε t, (5) kterou můžeme opět odhadnout MNČ. Při detekci autokorelace ovšem nevycházíme z předchozí rovnice, nýbrž zpravidla počítáme tzv. - statistiku d podle předpisu d =. Pro dané k a n (tj. počet regresorů a pozorování) jsou tabelovány kritické hodnoty a, na jejichž základě vyhodnocujeme tzv. DW-test následujícím způsobem: je-li d <, počítáme s autokorelací, je-li d >, počítáme s autokorelací, je-li d mezi a, nezamítáme hypotézu o absenci autokorelace, v ostatních případech jsou výsledky DW-testu neprůkazné. DW-test není korektní (a nepoužíváme ho) v případě, že zkoumaný model neobsahuje zkoumaný model obsahuje mezi regresory zpožděné hodnoty, nebo proměnné. 16

17 Příklad 9.2 Hodnoty reziduí, které byly získány po odhadu lineárního regresního modelu y t = β 0 + β 1 x t + u t, t = 1, 2,..., 6 pomocí mnč, jsou v následující tabulce. Testujte pomocí Durbinovy-Watsonovy statistiky, zda je v modelu přítomna autokorelace. t e t Příklad 9.3 V souboru usa.gdt jsou k dispozici roční údaje o agregátní spotřebě v USA (cons) a hrubém domácím produktu USA (usa) v letech a) Odhadněte lineární regresní model gdp t = β 0 + β 1 cons t + β 2 t + u t, t = 1959,..., 1994 a testujte, zda se v získaných reziduích vyskytuje autokorelace. Nejprve použijte Durbinovu- Watsonovu statistiku (tj. proveďte DW-test), a poté proveďte t-test pro rovnice tvaru b) Odhadněte lineární regresní model e t = ρe t 1 + v t, e t = β 0 + β 1 cons t + β 2 t + β 3 e t 1 + ε t. gdp t = β 0 + β 1 cons t + β 2 gdp t 1 + u t, t = 1960,..., 1994 a testujte, zda se v získaných reziduích vyskytuje autokorelace. Použijte Durbinovo h a Breuschův-Godfreyův test. Příklad 9.4 S použitím dat ze souboru makro.xls uvažujte lineární regresní model ve tvaru output t = β 0 + β 1 cons t + β 2 inc t + u t, t = 1980:1,..., 2004:4. a) Model odhadněte pomocí mnč a ukažte, že je v modelu přítomna autokorelace prvního řádu. b) Pokuste se odstranit autokorelaci s využitím odhadu r autokorelačního koeficientu ρ. c) Odhadněte model pomocí Cochraneovy-Orcuttovy metody a porovnejte výsledky z bodů a,b,c. Cvičení 10: Průběžný test Cvičení 11: Modely simultánních rovnic Příklad 11.1 Uvažujte model simultánních rovnic popisujících funkce nabídky a poptávky ve tvaru q t = α 0 + α 1 p t + α 2 y t + u t, t = 1, 2,..., T, q t = β 0 + β 1 p t + v t, t = 1, 2,..., T, (6) přičemž předpokládáme, že hodnoty parametrů splňují α 1 > 0, α 2 < 0, β 1 > 0. a) Určete, které proměnné jsou v uvedeném modelu endogenní a které exogenní. b) Soustava (6) představuje strukturní tvar msr. Převeďte soustavu do tvaru redukovaného. c) po odhadu redukovaného tvaru p t = π 10 + π 11 y t + w 1t, t = 1, 2,..., T, q t = π 20 + π 21 y t + w 2t, t = 1, 2,..., T jsme získali následující hodnoty: π 10 = 1, π 11 = 2, π 20 = 3, π 21 = 4. Pokuste se na základě těchto hodnot odhadnout původní parametry modelu (6). 17

18 d) Ověřte řádovou podmínku identifikace obou rovnic. e) Ověřte hodnostní podmínku identifikace obou rovnic. Příklad 11.2 V souboru plyn.xls jsou uvedeny údaje z USA o celkových tržbách za dodávky plynu v mld. USD (q), cenách plynu (p) a příjmech domácností (y) v letech Uvažujte model simultánních rovnic q t = α 0 + α 1 p t + α 2 y t + u t, t = 1981,..., 2000, q t = β 0 + β 1 p t + β 2 q t 1 + v t, t = 1981,..., a) Určete, které proměnné jsou v uvedeném modelu endogenní a které predeterminované. b) Určete, zda jsou jednotlivé rovnice podidentifikované, přesně identifikované nebo přeidentifikované. c) Odhadněte soustavu (7) metodou nepřímých nejmenších čtverců. d) Odhadněte soustavu (7) metodou dvoustupňových nejmenších čtverců a porovnejte výsledky s přechozím bodem. (7) Cvičení 12: Rezerva Dodatek: Namátkové poznámky Multikolinearita. Platí: var( ˆβ j x) = σ 2 SST j (1 R 2 j ), kde SST j = i (x ij x j ) 2, tedy SST j je celkový součet čtverců proměnné x j, a Rj 2 je koeficient determinace z pomocné regrese, kde vysvětlujeme x j pomocí zbylých vysvětlujících proměnných, tj. pomocí x 1,..., x j 1, x j+1,..., x k. V Gretlu lze snadno vypočítat tu část výše uvedeného vzorečku, která poukazuje na míru multikolinearity, a sice tzv. variance inflation factors (VIF), definované jako 1 VIF j = 1 Rj 2. VIF se zobrazí, zvolíme-li v menu okna s výstupem po odhadu modelu volbu Tests Collinearity. Gretl naznačuje, že multikolinearitou má smysl se zabývat, je-li pro některé j hodnota VIF > 10, což odpovídá tomu, že Rj 2 > 0.9. Pravdou ale je, že toto číslo nelze nijak pádně odůvodnit. Testování hypotéz po odhadu LRM. Po odhadu LRM lze testovat celá řada statistických hypotéz, udělejme si stručný přehled, jak na ně. Významnost (parciálního, tj. očištěného) vlivu jednotlivých proměnných. Testujeme vlastně hypotézu o skutečném (ale neznámém) parametru β j, konkrétně při oboustranném testu H 0 : β j = 0, H 1 : β j 0. Tady je situace jednoduchá, Gretl nám vrací automaticky p-hodnotu daného testu (a rovněž všemi tak oblíbené hvězdičky) v základní výsledkové tabulce. Často chceme volit test jednostranný např. že stáří vozu (což je řekněme j-tá vysvětlující proměnná) má negativní vliv na jeho cenu, tj. chceme testovat H 0 : β j = 0, H 1 : β j < 0. Tady je na místě ostražitost. Vyjde-li ˆβ j > 0, zřejmě nezamítáme nulovou hypotézu. V opačném případě. tj. pokud data poukazují na očekávaný směr závislosti, stačí použít opět p-hodnotu z výsledkové tabulky s tím, že ji nejprve vydělíme 2! 18

19 Konkrétní úroveň vlivu jednotlivých proměnných. Obecnějším případem předchozího testu je nulová hypotéza ve tvaru H 0 : β j = c, kde c je libovolná konstanta. Volíme-li oboustrannou hypotézu, můžeme vyhodnotit test pomocí intervalu spolehlivosti: pokud neleží c v 95% intervalu spolehlivosti pro β j, zamítáme H 0 na 5% hladině významnosti. Analogicky můžeme postupovat pro jiné hladiny významnosti, ale 95% interval spolehlivosti se snadno přibližně spočítá jako coefficient ± 2 std. error. Pro libovolnou podobu alternativní hypotézy pak můžeme využít výsledek ˆβ j β j při H 0 coefficient c = s ˆβj std. error t n k 1, kde t n k 1 je Studentovo rozdělení s n k 1 stupni volnosti. Při testování vypočítáme výraz za rovnítkem a porovnáme s kritickými hodnotami ze Studentova rozdělení, které najdeme pod Tools Statistical tables v základním okně Gretlu. Významnost souhrnného vlivu několika proměnných. Tento test používáme např. v případě, že chceme testovat významnost vlivu kategoriálního faktoru zakódovaného do sady dummy proměnných viz příklad 6.2c, nebo pokud máme testovat vliv proměnné, která se vyskytuje v první i druhé mocnině (kvadratická regrese) viz příklad 6.3e. V posledním zmiňovaném příkladu jsme měli hypotézy ve tvaru H 0 : β 1 = β 2 = 0, H 1 : non H 0, testujeme ji tzv. F -testem. Jméno naznačuje, že testová statistika má za platnosti H 0 Fisherovo (též Fisherovo-Snedeckerovo) rozdělení s vhodně zvolenými stupni volnosti. Nic z toho si naštěstí nemusíme pro praktické použití pamatovat. Stačí vědět, že v Gretlu test spustíme v okně s výsledky našeho odhadu volbou Tests Omit variables, ve výstupu koukáme na závěrečnou p-hodnotu. Speciálním případem tohoto testu je rovněž tzv. celkový F -test, kdy se testuje hypotéza, zda lze z modelu vynechat všechny vysvětlující proměnné současně. Hypotézy mají podobu H 0 : β 1 =... = β k = 0, H 1 : non H 0. Upozorňuji, že k hodnotě úrovňové konstanty β 0 se nulová hypotéza nijak nevyslovuje, jde pouze o koeficienty u vysvětlujících proměnných. Tento test není třeba ručně spouštět, jeho vyhodnocení je součástí standardního výstupu po odhadu modelu (v části pod hlavní tabulkou). Lineární restrikce koeficientů. Lineární restrikce koeficientů jsou zobecněním předchozích omezení. Nulová hypotéza může být formulována v podobě nějaké soustavy lineárních rovnic, kterou musí koeficienty β 0,..., β k splňovat. Konkrétní využítí ukazuje např. příklad 6.1; tam měla H 0 podobu H 0 : β 2 = β 3, což je zřejmě jedna lineární rovnice v proměnných β 2 a β 3. Alternativní hypotéza se opět volí vždy ve tvaru H 1 : non H 0. Testujeme stejně jako v předchozím případě jistou formou F -testu, v Gretlu ji najdeme v nabídce Tests Linear restrictions. Test opět vyhodnotíme na základě výsledné p-hodnoty. 19

20 Cobbova-Douglasova produkční funkce (statická). CDPF představuje jeden z nejpoužívanějších funkčních tvarů, který ekonomové používají pro modelování nejen vícefaktorové produkce, ale rovněž např. funkce užitku apod. V učebnicích se zapisuje nejčastěji jako dvoufaktorová výrobní faktory se zpravidla označují jako K a L a nazývají práce a kapitál, ale lze ji jednoduše zobecnit na více výrobních faktorů. Označíme-li objem produkce jako Q, má tradiční CDPF předpis Q = ak α L β. (8) Zlogaritmováním obou stran (log je zde přirozený logaritmus) dostaneme log Q = log a + α log K + β log L. Toto už je tvar, který je lineární v parametrech α, β. Odhadujeme-li parametry CDPF z empirických dat, sestrojíme z ekonomického modelu model ekonometrický parametry nazveme standardně jako β j a přidáme náhodnou složku: Co se parametrů týče, udělali jsme vlastně substituci log Q = β 0 + β 1 log K + β 2 log L + u. (9) β 0 = log a, čili a = e β0, β 1 = α, β 2 = β. Model (9) již připomíná na první pohled LRM, můžeme odhadovat MNČ. Po odhadu je třeba si uvědomit, že zatímco parametry odhadnuté u výrobních faktorů jsou přímo odhady α a β, úrovňová konstanta je odhad log a, je tedy třeba ji prohnat exponencielou (neboť e log a = a). Následují některá zajímavá fakta o CDPF: Jelikož jsou všechny proměnné modelu (9) logaritmovány, udávají koeficienty přibližné vztahy mezi relativními změnami výstupu na straně jedné a výrobních faktorů na straně druhé. Konkrétněji, α a β jsou elasticity výstupu vzhledem ke kapitálu a práci, neboli α Q/Q K/K = % Q % K, β Q/Q L/L = % Q % L. CDPF je tedy funkce s konstantními elasticitami, tj. elasticity nejsou závislé na aktuální výši K a L, jsou konstatní podél CDPF. Mělo by platit, že 0 < α < 1. První nerovnost odpovídá požadavku, aby při nárůstu výrobního faktoru vzrostl výstup, druhá nerovnost zachycuje zákon o klesajícím mezním výnosu při změně jednoho výrobního faktoru. Stejné vztahy platí i pro β. Součet α + β udává stupeň homogenity CDPF, neboli určuje výnosy z rozsahu. α + β výnosy z rozsahu < 1 klesající = 1 konstantní > 1 rostoucí Mezní míra technické substituce práce za kapitál (MRTS L,K ) vyjadřuje, kolik potřebujeme přidat jednotek práce (L), pokud se kapitál (K) sníží o jednotku a chceme udržet stejný výstup (Q). Platí: MRTS L,K = α β L K. Mezní míra technické substituce se tedy podél CDPF mění. Elasticita substituce je podél celé CDPF konstantní a jednotková. 20

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 4: Statistické vlastnosti MNČ LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Upřesnění k pojmům a značení

Více

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A AKM - 1-2 CVIČENÍ Opakování maticové algebry Mějme matice A, B regulární, potom : ( AB) = B A 1 1 ( A ) = ( A ) ( A ) = A ( A + B) = A + B 1 1 1 ( AB) = B A, kde A je řádu mxn a B nxk Čtvercová matice

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2014/15 Cvičení 5: Vícenásobná regrese, multikolinearita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Jednoduchá

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2016/17 Cvičení 3: Lineární regresní model LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Seznámení s EViews Upřesnění

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 5 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 10: Heteroskedasticita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Heteroskedasticita - teorie Druhý

Více

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2016/17 Cvičení 5: Vícenásobná regrese LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Jednoduchá regrese opakování

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2014/15 Cvičení 6: Dummy proměnné, úvod do časových řad LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Multikolinearita

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK11 Základy ekonometrie Autokorelace Cvičení 5 Zuzana Dlouhá Gauss-Markovy předpoklady Náhodná složka: Gauss-Markovy předpoklady 1. E(u) = náhodné vlivy se vzájemně vynulují. E(uu T ) = σ I n konečný

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 1: Opakování ze statistiky LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Z čeho studovat 1) Z KNIHY Krkošková,

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné

Více

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD Umělé (dummy) proměnné se používají, pokud chceme do modelu zahrnout proměnné, které mají kvalitativní či diskrétní charakter,

Více

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty Neparametrické testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Bodové a intervalové odhady parametrů v regresním modelu 1 Odhady parametrů 11 Bodové odhady Mějme lineární regresní model (LRM) kde Y = y 1 y 2 y n, e = e 1 e 2 e n Y = Xβ + e, x 11 x 1k, X =, β = x n1

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2014/15 Cvičení 6: Dummy proměnné, multikolinearita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Pokračování z minula:

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Matematické modelování Náhled do ekonometrie. Lukáš Frýd Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)

Více

Úvod do ekonometrie Minitesty

Úvod do ekonometrie Minitesty Úvod do ekonometrie Minitesty Poznámka k zadání Použité značení odpovídá přednáškám, v případě nejasností nahlédněte do zveřejněných prezentací. V zadání jsou všude použity desetinné tečky (kvůli souladu

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chb v této presentaci mě prosím upozorněte. Děkuji. Tto slid berte pouze jako doplňkový materiál není v nich

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 6: Multikolinearita, umělé proměnné LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Otevřete si data z

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie LS 2014/15 Cvičení 11: Speciální případy použití MNČ LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 2. Nelineární funkce

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

AVDAT Geometrie metody nejmenších čtverců

AVDAT Geometrie metody nejmenších čtverců AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové

Více

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Zadání Máme data hdp.wf1, která najdete zde:  Bodová předpověď: Intervalová předpověď: Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu 1. Příklad U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi.

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Logistická křivka Umělé proměnné Cvičení 11 Zuzana Dlouhá Logistická křivka log-lineární model patří mezi poptávkové funkce, ty dělíme na: a) klasické D = f (příjem, cenový index,

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Statistická analýza dat

Statistická analýza dat Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka

Více

4EK216 Ekonometrie. Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, 30. října 2015

4EK216 Ekonometrie. Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, 30. října 2015 4EK216 Ekonometrie Příklady ke cvičením Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, zouharj@vse.cz 30. října 2015 Cvičení 1: Opakování základní práce s lineárním regresním modelem Příklad 1.1. (Ojeté

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Cvičení 9 dekompozice časových řad a ARMA procesy

Cvičení 9 dekompozice časových řad a ARMA procesy Cvičení 9 dekompozice časových řad a ARMA procesy Příklad 1: Dekompozice časové řady Soubor 18AEK-cv09.xls obsahuje dvě časové řady (X a Y) se 72 pozorováními. Použijte časovou řadu Y. a) Pokuste se na

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) 1. SPECIFIKACE (12 bodů): (1) Graf průběhu proměnných (1) Obě řady se chovají stejně, lze předpokládat jejich lineární vztah

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

4ST201 STATISTIKA CVIČENÍ Č. 10

4ST201 STATISTIKA CVIČENÍ Č. 10 4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

ÚVOD DO TEORIE ODHADU. Martina Litschmannová ÚVOD DO TEORIE ODHADU Martina Litschmannová Obsah lekce Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti (Chí-kvadrát (Pearsonovo),

Více

z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme, Úloha 1: V naší studii se zabýváme poptávkovou funkcí životního pojištění, vycházíme z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Statistika (KMI/PSTAT)

Statistika (KMI/PSTAT) Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

Doporučené příklady k procvičení k 2. Průběžnému testu

Doporučené příklady k procvičení k 2. Průběžnému testu Doporučené příklady k procvičení k 2. Průběžnému testu - Statistika v příkladech Marek a kol. (2013) - kapitola 2.3, 9 řešené příklady 2.52-2.53, 2.58a,b - kapitola 3.1 o řešené příklady: 3.1, 3.2, 3.4

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 2: Metoda nejmenších čtverců LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Doplnění a opakování z

Více

Aplikovaná statistika v R - cvičení 2

Aplikovaná statistika v R - cvičení 2 Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Dynamické metody pro predikci rizika

Dynamické metody pro predikci rizika Dynamické metody pro predikci rizika 1 Úvod do analýzy časových řad Časová řada konečná posloupnost reálných hodnot určitého sledovaného ukazatele měřeného v určitých časových intervalech okamžikové např

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Úvod do předmětu obecné informace Základní pojmy ze statistiky / ekonometrie Úvod do programu EViews, Gretl Některé užitečné funkce v MS Excel Cvičení 1 Zuzana Dlouhá Úvod do

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více