Metoda backward výběru proměnných v lineární regresi a její vlastnosti
|
|
- Ludmila Švecová
- před 6 lety
- Počet zobrazení:
Transkript
1 Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30
2 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 2 / 30
3 Postupné odebírání vysvětlujících proměnných Angl. backward elimination. V modelu máme všechny vysvětlující proměnné. Postupně odebíráme takové vysvětlující proměnné, jejichž p-hodnota (příslušející dílčímu t-testu o nulové hodnotě parametru v aktuálním modelu) je největší ze všech vysvětlujících proměnných v modelu a zároveň větší než zvolená hladina α remove (např. 0.05, 0.1 apod.). Po odebrání takovéto vysvětlující proměnné z modelu se p-hodnoty u ostatních vysvětlujících proměnných, které v modelu zbyly, v obecnosti změní. Tuto proceduru postupného odebírání opakujeme do té doby, než všechny vysvětlující proměnné, které v modelu zbyly, mají p-hodnotu menší nebo rovnu α remove. 3 / 30
4 Postupné zařazování vysvětlujících proměnných Angl. forward selection. Začneme s modelem, ve kterém není žádná vysvětlující proměnná. Pro každou vysvětlující proměnnou, která není v modelu, vypočteme p-hodnotu (na základě dílčího t-testu) odpovídající přidání této proměnné do modelu. Ze všech takovýchto proměnných posléze do modelu přidáme tu s nejnižší p-hodnotou, pokud je tato p-hodnota zároveň nižší než zvolená hladina α add. Tento postup opakujeme do té doby, dokud existují vysvětlující proměnné, které můžeme přidávat. 4 / 30
5 Krokové metody v literatuře Derksen, S., & Keselman, H. J. (1992): Backward, forward and stepwise automated subset selection algorithms: Frequency of obtaining authentic and noise variables. British Journal of Mathematical and Statistical Psychology, 45(2), Harrell, F. (2001): Regression modeling strategies, with applications to linear models, logistic regression and survival analysis. Springer. Molodkina, K. (2014): Krokové metody v lineární regresi a jejich vlastnosti. Bakalářská práce MFF UK. Whittingham, M. J., Stephens, P. A., Bradbury, R. B., & Freckleton, R. P. (2006): Why do we still use stepwise modelling in ecology and behaviour? Journal of animal ecology, 75(5), / 30
6 Některé alternativy ke krokovým metodám Metoda best subset: Procházíme, všechny možné modely a pro každý z modelů vyhodnocujeme kritérium kvality modelu (např. upravený index determinace, AIC, apod.). Následně jako nejlepší model vybíráme ten, jež poskytuje optimální hodnotu daného kritéria (největší upravený index determinace, nejnižší hodnotu AIC, apod.). lasso regrese (Tibshirani, 1996) 1. 1 Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), / 30
7 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 7 / 30
8 Monte Carlo simulace Lineární regresní model (bez absolutního členu) Y i = β 1 x i β m x im β k x ik + ε i, i = 1,..., n, kde n je počet pozorování, Y i je vysvětlovaná proměnná pro i-té pozorování, x i1, x i2,..., x ik jsou známé konstanty, ε i je chyba pro i-té pozorování a 1 m k je počet regresních parametrů, jež jsou nenulové (viz dále). V rámci simulace má vektor chyb [ε 1, ε 2,..., ε n ] T n-rozměrné normální rozdělení s nulovým vektorem středních hodnot a kovarianční maticí σ 2 I, kde σ 2 = V rámci simulace volíme postupně n = 50, / 30
9 Vysvětlující proměnné V rámci simulace volíme pevně k = 20. Empirický průměr hodnot libovolné vysvětlující proměnné je 0. Empirický rozptyl hodnot libovolné vysvětlující proměnné (tj. hodnot x 1j, x 2j,..., x nj, pro j = 1,..., k) je roven 1. Histogram hodnot vysvětlujících proměnných je blízký gaussovskému histogramu. Empirická korelace mezi hodnotami libovolné dvojice různých vysvětlujících proměnných je rovna ρ. V simulaci volíme postupně ρ = 0, / 30
10 Volba regresních parametrů Volíme postupně m = 5, 15. Regresní parametry jsou dány jako: { j 1 β j = m 1, pro j = 1, 2,..., m, 0, pro j = m + 1,..., k. Pro m = 5 je vektor regresní parametrů dán jako [1.5, 1.15, 0.8, 0.45, 0.1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] T, Pro m = 15 je vektor regresní parametrů dán jako [1.5, 1.4, 1.3, 1.2, 1.1, 1.0, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1, 0, 0, 0, 0, 0] T. 10 / 30
11 m = 5 m = 15 β j β j j j 11 / 30
12 Shrnutí nastavení Monte Carlo simulace α remove = σ 2 = k = 20. Dvě hodnoty n (n = 50, n = 300), dvě hodnoty ρ (ρ = 0, ρ = 0.8) a dvě hodnoty m (m = 5, m = 15). Celkem 2 3 = 8 možných nastavení. Počet simulací pro každé nastavení: směrodatné chyby všech relativních četností jsou omezeny shora hodnotou odhady směrodatných chyb různých výběrových průměrů (viz níže) nepřesahují / 30
13 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 13 / 30
14 Značení p noise : Relativní četnost toho, že ve výsledném modelu zůstane alespoň jedna vysvětlující proměnná, jejíž skutečný regresní parametr je nulový. p authentic : Relativní četnost toho, že ve výsledném modelu budou všechny vysvětlující proměnné, jejichž skutečné parametry jsou nenulové. p correct : Relativní četnost toho, že ve výsledném modelu budou všechny vysvětlující proměnné, jejichž skutečné parametry jsou nenulové, a nebude tam žádná vysvětlující proměnná, jejíž skutečný parametr je nulový. p j (pro j = 1,..., k): Relativní četnost toho, že j-tá vysvětlující proměnná bude přítomna ve finálním modelu. 14 / 30
15 ave all : Průměrný počet všech vysvětlujících proměnných ve finálním modelu. ave authentic : Průměrný počet vysvětlujících proměnných ve finálním modelu, jejichž skutečné parametry jsou nenulové. 15 / 30
16 p j m = 5, rho = 0, n = 50 p_noise = 0.58 p_authentic = 0.01 p_correct = 0 ave_all = 3.79 ave_authentic = 2.86 p j m = 5, rho = 0, n = 300 p_noise = 0.56 p_authentic = 0.09 p_correct = 0.04 ave_all = 4.75 ave_authentic = p j m = 5, rho = 0.8, n = 50 p_noise = 0.73 p_authentic = 0 p_correct = 0 ave_all = 2.96 ave_authentic = 1.69 p j m = 5, rho = 0.8, n = 300 p_noise = 0.63 p_authentic = 0.01 p_correct = 0 ave_all = 4.2 ave_authentic = / 30
17 p j m = 15, rho = 0, n = 50 p_noise = 0.21 p_authentic = 0 p_correct = 0 ave_all = 8.44 ave_authentic = 8.2 p j m = 15, rho = 0, n = 300 p_noise = 0.22 p_authentic = 0.02 p_correct = 0.02 ave_all = ave_authentic = p j m = 15, rho = 0.8, n = 50 p_noise = 0.39 p_authentic = 0 p_correct = 0 ave_all = 5.93 ave_authentic = 5.46 p j m = 15, rho = 0.8, n = 300 p_noise = 0.26 p_authentic = 0 p_correct = 0 ave_all = 10.4 ave_authentic = / 30
18 Shrnutí Pravděpodobnosti různých finálních modelů p correct a p authentic jsou nízké, p noise je relativně vysoká. Vyšší hodnota m vede k nižší p noise a p authentic. Vyšší hodnota ρ vede k vyšší p noise a nižší p authentic a p correct. Vyšší hodnota n vede k mírně vyšší p authentic a p correct. Metoda forward vykazuje kvalitativně podobné chování. 18 / 30
19 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 19 / 30
20 Značení B par : Odhad vychýlení odhadu regresního parametru β 3 = 0.8 (pro m = 5) resp. β 8 = 0.8 (pro m = 15). B cond : Odhad podmíněného vychýlení odhadu regresního parametru β 3 = 0.8 (pro m = 5) resp. β 8 = 0.8 (pro m = 15) za podmínky, že se příslušná vysvětlující proměnná vyskytuje ve finálním modelu. B eta : Odhad vychýlení odhadu regresní funkce v bodě [1, 1,..., 1]. Skutečná regresní funkce má v tomto bodě hodnotu 4 (pro m = 5) resp. 12 (pro m = 15). 20 / 30
21 p coverage : Relativní četnost pokrytí regresní funkce v bodě [1, 1,..., 1] 95% intervalem spolehlivosti pro regresní funkci napočítáným dle standardní teorie na základě finálního modelu. B resvar : Odhad vychýlení odhadu rozptylu chybové složky prostřednictvím reziduálního rozptylu napočteného na základě finálního modelu. 21 / 30
22 m = 5, rho = 0, n = 50 m = 5, rho = 0, n = 300 Abs. cetnost odhadu B_par = 0.15 B_cond = 0.22 B_eta = 0.5 p_coverage = 0.69 B_resVar = 0.49 Abs. cetnost odhadu B_par = 0.01 B_cond = 0.01 B_eta = 0.07 p_coverage = 0.82 B_resVar = Abs. cetnost odhadu m = 5, rho = 0.8, n = 50 B_par = 0.24 B_cond = 1.05 B_eta = 0.04 p_coverage = 0.92 B_resVar = 0.67 Abs. cetnost odhadu m = 5, rho = 0.8, n = 300 B_par = 0.03 B_cond = 0.15 B_eta = 0.01 p_coverage = 0.94 B_resVar = / 30
23 m = 15, rho = 0, n = 50 m = 15, rho = 0, n = 300 Abs. cetnost odhadu B_par = 0.21 B_cond = 0.22 B_eta = 2.14 p_coverage = 0.49 B_resVar = 0.31 Abs. cetnost odhadu B_par = 0 B_cond = 0 B_eta = 0.28 p_coverage = 0.87 B_resVar = Abs. cetnost odhadu m = 15, rho = 0.8, n = 50 B_par = 0.16 B_cond = 1.18 B_eta = 0.1 p_coverage = 0.93 B_resVar = 0.42 Abs. cetnost odhadu m = 15, rho = 0.8, n = 300 B_par = 0.01 B_cond = 0.18 B_eta = 0.02 p_coverage = 0.94 B_resVar = / 30
24 Shrnutí Inference Odhady regresních parametrů jsou vychýlené. Pokud je vysvětlující proměnná zahrnuta ve finálním modelu, tak je příslusný odhadnutý efekt v průměru nadhodnocený. Odhady regresní funkce jsou v obecnosti vychýlené a intervaly spolehlivosti pro regresní funkci nemají požadovaná pokrytí. Reziduální rozptyl napočtený z finálního modelu dle standardní teorie je vychýleným odhadem rozptylu chybové složky. Metoda forward vykazuje kvalitativně podobné chování. 24 / 30
25 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 25 / 30
26 Přesnost odhadu regresní funkce S využitím Monte Carlo simulace odhadujeme R backward = MSE backward MSE full, kde MSE backward resp. MSE full = σ 2 k n jsou průměrné (napříč n původními body) střední čtvercové chyby odhadu regresní funkce na základě finálního modelu z krokové metody backward a na základě plného modelu s k vysvětlujícími proměnnými. Výsledky zakreslíme pro 8 nastavení a porovnáme je s R forward (pro α add = 0.05), s R bestsubset založené na upraveném indexu determinace a s metodou backward v situaci, kdy regresní parametry mají jen čtvrtinovou velikost oproti původnímu nastavení. 26 / 30
27 R backward forward best subset backward : 1/4 efekty m = 5, rho = 0, n = 50 m = 5, rho = 0, n = 300 m = 5, rho = 0.8, n = 50 m = 5, rho = 0.8, n = 300 m = 15, rho = 0, n = 50 m = 15, rho = 0, n = 300 m = 15, rho = 0.8, n = 50 m = 15, rho = 0.8, n = Nastaveni 27 / 30
28 Shrnutí Přesnosti odhadu regresní funkce Pro m=5 poskytla kroková metoda přesnější odhad regresní funkce (měřeno MSE) a potažmo přesnější předpovědi než plný model. Metoda best subset není záchranou. 28 / 30
29 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 29 / 30
30 Domníváme se, že analogické výsledky lze očekávat i v případě zobecněných lineárních modelů. 30 / 30
AVDAT Výběr regresorů v mnohorozměrné regresi
AVDAT Výběr regresorů v mnohorozměrné regresi Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Výběr správného lineárního modelu y = Xβ + ε, ale v matici X typu n (p + 1) je
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M
Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.
Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci
Bodové a intervalové odhady parametrů v regresním modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
odpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Klasická a robustní ortogonální regrese mezi složkami kompozice
Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
AVDAT Geometrie metody nejmenších čtverců
AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
Inovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 5 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
LINEÁRNÍ MODELY. Zdeňka Veselá
LINEÁRNÍ MODELY Zdeňka Veselá vesela.zdenka@vuzv.cz Genetika kvantitativních vlastností Jednotlivé geny nejsou zjistitelné ani měřitelné Efekty většího počtu genů poskytují variabilitu, kterou lze většinou
Ilustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 4: Statistické vlastnosti MNČ LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Upřesnění k pojmům a značení
4EK211 Základy ekonometrie
4EK11 Základy ekonometrie Autokorelace Cvičení 5 Zuzana Dlouhá Gauss-Markovy předpoklady Náhodná složka: Gauss-Markovy předpoklady 1. E(u) = náhodné vlivy se vzájemně vynulují. E(uu T ) = σ I n konečný
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Karta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 10: Heteroskedasticita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Heteroskedasticita - teorie Druhý
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Lineární a logistická regrese
Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD
Politická ekonomie 45: (2), str. 281-289, VŠE Praha, 1997. ISSN 0032-3233. (Rukopis) REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD Josef ARLT, Vysoká škola ekonomická, Praha 1. Úvod Pro modelování
Cvičící Kuba Kubina Kubinčák Body u závěrečného testu
1. Příklad U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi.
Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
INDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.
Statistická a věcná významnost Statistická významnost Petr Soukup 5.11.2009 Fisher (1925) Historie hypotézy a testů Null and alternative hypothesis (NHST) (Neyman&Pearson, 1937) Dnes běžná praxe a součást
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
Pokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
dat Robust ledna 2018
Analýza prostorově závislých funkcionálních dat V. Římalová, A. Menafoglio, A. Pini, E. Fišerová Robust 2018 25. ledna 2018 Motivace Data a náhled lokace Měsíční měření (březen-říjen 2015 a 2016) 5 chemických
Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová
Testování předpokladů pro metodu chain-ladder Seminář z aktuárských věd 4. 11. 2016 Petra Španihelová Obsah Datová struktura Posouzení dat Předpoklady metody chain-ladder dle T. Macka Běžná lineární regrese
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
Korelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
Prostorová variabilita
Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální
Cvičení 9 dekompozice časových řad a ARMA procesy
Cvičení 9 dekompozice časových řad a ARMA procesy Příklad 1: Dekompozice časové řady Soubor 18AEK-cv09.xls obsahuje dvě časové řady (X a Y) se 72 pozorováními. Použijte časovou řadu Y. a) Pokuste se na
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Příloha č. 1 Grafy a protokoly výstupy z adstatu
1 Příklad 3. Stanovení Si metodou OES Byly porovnávány naměřené hodnoty Si na automatickém analyzátoru OES s atestovanými hodnotami. Na základě testování statistické významnosti regresních parametrů (úseku
Základní statistické metody v rizikovém inženýrství
Základní statistické metody v rizikovém inženýrství Petr Misák Ústav stavebního zkušebnictví Fakulta stavební, VUT v Brně misak.p@fce.vutbr.cz Základní pojmy Jev souhrn skutečností zobrazujících ucelenou
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU
EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU Klára Hrůzová 1,2, Karel Hron 1,2 1 Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, Univerzita Palackého v Olomouci 2 Katedra
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Úvod do teorie měření. Eva Hejnová
Úvod do teorie měření Eva Hejnová Literatura: Novák, R. Úvod do teorie měření. Ústí nad Labem: UJEP, 2003 Sprušil, B., Zieleniecová, P.: Úvod do teorie fyzikálních měření. Praha: SPN, 1985 Brož, J. a kol.
Intervalová data a výpočet některých statistik
Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a
Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28
Základy ekonometrie XI. Vektorové autoregresní modely Základy ekonometrie (ZAEK) XI. VAR modely Podzim 2015 1 / 28 Obsah tématu 1 Prognózování s VAR modely 2 Vektorové modely korekce chyb (VECM) 3 Impulzní
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
AVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.
Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou
4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
Semestrální práce. 2. semestr
Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet
Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel
Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23
Návrhy experimentů v neparametrické regresi
Návrhy eperimentů v neparametrické regresi Zdeněk Hlávka Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky 2.5.2012 Zdeněk Hlávka (KPMS MFF UK)
EKONOMETRIE 9. přednáška Zobecněný lineární regresní model
EKONOMETRIE 9. přednáška Zobecněný lineární regresní model Požadavky (některé) pro odhad LRM klasickou MNČ nejsou zpravidla splněny. Použití metody nejmenších čtverců nemusí poskytovat kvalitní odhady
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.
Matematika pro chemické inženýry
Matematika pro chemické inženýry Drahoslava Janovská Lineární a nelineární regrese Přednášky ZS 2016-2017 Sponzorováno grantem VŠCHT Praha, PIGA 413-17-6642, 2016 Povinná látka. Bude v písemkách a bude
Simulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Stavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36
Testování změn v binárnách autoregresních modelech Šárka Hudecová KPMS MFF UK ROBUST 2012 Němčičky 9. 14.9.2012 Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36 Uvažovaná situace
Testy dobré shody pro časové řady s diskrétními veličinami
Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová, Marie Hušková a Simos G. Meintanis KPMS MFF UK Robust 2016 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
Regresní a korelační analýza
Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)
Kalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015
Základy lineární regrese
Základy lineární regrese David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5. 7. 8. 2015 Tato akce
Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
Úvod do teorie měření. Eva Hejnová
Úvod do teorie měření Eva Hejnová Podmínky získání zápočtu: Podmínkou pro získání zápočtu je účast na cvičeních (maximálně tři absence) a úspěšné splnění jednoho písemného testu alespoň na 50 % max. počtu
Bodové a intervalové odhady parametrů v regresním modelu
Bodové a intervalové odhady parametrů v regresním modelu 1 Odhady parametrů 11 Bodové odhady Mějme lineární regresní model (LRM) kde Y = y 1 y 2 y n, e = e 1 e 2 e n Y = Xβ + e, x 11 x 1k, X =, β = x n1
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik
Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik Ondřej Pavlačka Praha, 18. ledna 2011 Cíle projektu Vytvořit matematický model pro oceňování přijímaného
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není