Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Podobné dokumenty
AVDAT Výběr regresorů v mnohorozměrné regresi

AVDAT Klasický lineární model, metoda nejmenších

4EK211 Základy ekonometrie

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Bodové a intervalové odhady parametrů v regresním modelu

Testování hypotéz o parametrech regresního modelu

odpovídá jedna a jen jedna hodnota jiných

Testování hypotéz o parametrech regresního modelu

Klasická a robustní ortogonální regrese mezi složkami kompozice

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza 1. Regresní analýza

6. Lineární regresní modely

4EK211 Základy ekonometrie

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

AVDAT Geometrie metody nejmenších čtverců

Statistika (KMI/PSTAT)

4EK211 Základy ekonometrie

Inovace bakalářského studijního oboru Aplikovaná chemie

5EN306 Aplikované kvantitativní metody I

LINEÁRNÍ MODELY. Zdeňka Veselá

Ilustrační příklad odhadu LRM v SW Gretl

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Karta předmětu prezenční studium

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

8 Coxův model proporcionálních rizik I

Regresní a korelační analýza

Lineární a logistická regrese

Statistická analýza jednorozměrných dat

REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

5EN306 Aplikované kvantitativní metody I

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Pokročilé neparametrické metody. Klára Kubošová

Lineární regrese. Komentované řešení pomocí MS Excel

dat Robust ledna 2018

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Regresní analýza. Eva Jarošová

Korelační a regresní analýza

Prostorová variabilita

Cvičení 9 dekompozice časových řad a ARMA procesy

Charakteristika datového souboru

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Základní statistické metody v rizikovém inženýrství

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Kontingenční tabulky, korelační koeficienty

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

12. cvičení z PST. 20. prosince 2017

Úvod do teorie měření. Eva Hejnová

Intervalová data a výpočet některých statistik

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Tomáš Karel LS 2012/2013

AVDAT Nelineární regresní model

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

4ST201 STATISTIKA CVIČENÍ Č. 10

PRAVDĚPODOBNOST A STATISTIKA

Semestrální práce. 2. semestr

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Návrhy experimentů v neparametrické regresi

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

UNIVERZITA PARDUBICE

Matematika pro chemické inženýry

Simulace. Simulace dat. Parametry

AVDAT Mnohorozměrné metody, metody klasifikace

Stavový model a Kalmanův filtr

Statistická analýza jednorozměrných dat

Normální (Gaussovo) rozdělení

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Testy dobré shody pro časové řady s diskrétními veličinami

Odhad parametrů N(µ, σ 2 )

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Kalibrace a limity její přesnosti

Základy lineární regrese

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

PRAVDĚPODOBNOST A STATISTIKA

Úvod do teorie měření. Eva Hejnová

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

KGG/STG Statistika pro geografy

Tomáš Karel LS 2012/2013

Transkript:

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30

1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 2 / 30

Postupné odebírání vysvětlujících proměnných Angl. backward elimination. V modelu máme všechny vysvětlující proměnné. Postupně odebíráme takové vysvětlující proměnné, jejichž p-hodnota (příslušející dílčímu t-testu o nulové hodnotě parametru v aktuálním modelu) je největší ze všech vysvětlujících proměnných v modelu a zároveň větší než zvolená hladina α remove (např. 0.05, 0.1 apod.). Po odebrání takovéto vysvětlující proměnné z modelu se p-hodnoty u ostatních vysvětlujících proměnných, které v modelu zbyly, v obecnosti změní. Tuto proceduru postupného odebírání opakujeme do té doby, než všechny vysvětlující proměnné, které v modelu zbyly, mají p-hodnotu menší nebo rovnu α remove. 3 / 30

Postupné zařazování vysvětlujících proměnných Angl. forward selection. Začneme s modelem, ve kterém není žádná vysvětlující proměnná. Pro každou vysvětlující proměnnou, která není v modelu, vypočteme p-hodnotu (na základě dílčího t-testu) odpovídající přidání této proměnné do modelu. Ze všech takovýchto proměnných posléze do modelu přidáme tu s nejnižší p-hodnotou, pokud je tato p-hodnota zároveň nižší než zvolená hladina α add. Tento postup opakujeme do té doby, dokud existují vysvětlující proměnné, které můžeme přidávat. 4 / 30

Krokové metody v literatuře Derksen, S., & Keselman, H. J. (1992): Backward, forward and stepwise automated subset selection algorithms: Frequency of obtaining authentic and noise variables. British Journal of Mathematical and Statistical Psychology, 45(2), 265-282. Harrell, F. (2001): Regression modeling strategies, with applications to linear models, logistic regression and survival analysis. Springer. Molodkina, K. (2014): Krokové metody v lineární regresi a jejich vlastnosti. Bakalářská práce MFF UK. Whittingham, M. J., Stephens, P. A., Bradbury, R. B., & Freckleton, R. P. (2006): Why do we still use stepwise modelling in ecology and behaviour? Journal of animal ecology, 75(5), 1182-1189. 5 / 30

Některé alternativy ke krokovým metodám Metoda best subset: Procházíme, všechny možné modely a pro každý z modelů vyhodnocujeme kritérium kvality modelu (např. upravený index determinace, AIC, apod.). Následně jako nejlepší model vybíráme ten, jež poskytuje optimální hodnotu daného kritéria (největší upravený index determinace, nejnižší hodnotu AIC, apod.). lasso regrese (Tibshirani, 1996) 1. 1 Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), 267-288. 6 / 30

1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 7 / 30

Monte Carlo simulace Lineární regresní model (bez absolutního členu) Y i = β 1 x i1 +... + β m x im +... + β k x ik + ε i, i = 1,..., n, kde n je počet pozorování, Y i je vysvětlovaná proměnná pro i-té pozorování, x i1, x i2,..., x ik jsou známé konstanty, ε i je chyba pro i-té pozorování a 1 m k je počet regresních parametrů, jež jsou nenulové (viz dále). V rámci simulace má vektor chyb [ε 1, ε 2,..., ε n ] T n-rozměrné normální rozdělení s nulovým vektorem středních hodnot a kovarianční maticí σ 2 I, kde σ 2 = 6.25. V rámci simulace volíme postupně n = 50, 300. 8 / 30

Vysvětlující proměnné V rámci simulace volíme pevně k = 20. Empirický průměr hodnot libovolné vysvětlující proměnné je 0. Empirický rozptyl hodnot libovolné vysvětlující proměnné (tj. hodnot x 1j, x 2j,..., x nj, pro j = 1,..., k) je roven 1. Histogram hodnot vysvětlujících proměnných je blízký gaussovskému histogramu. Empirická korelace mezi hodnotami libovolné dvojice různých vysvětlujících proměnných je rovna ρ. V simulaci volíme postupně ρ = 0, 0.8. 9 / 30

Volba regresních parametrů Volíme postupně m = 5, 15. Regresní parametry jsou dány jako: { 1.5 1.4 j 1 β j = m 1, pro j = 1, 2,..., m, 0, pro j = m + 1,..., k. Pro m = 5 je vektor regresní parametrů dán jako [1.5, 1.15, 0.8, 0.45, 0.1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] T, Pro m = 15 je vektor regresní parametrů dán jako [1.5, 1.4, 1.3, 1.2, 1.1, 1.0, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1, 0, 0, 0, 0, 0] T. 10 / 30

m = 5 m = 15 β j 0.0 0.5 1.0 1.5 β j 0.0 0.5 1.0 1.5 5 10 15 20 j 5 10 15 20 j 11 / 30

Shrnutí nastavení Monte Carlo simulace α remove = 0.05. σ 2 = 6.25. k = 20. Dvě hodnoty n (n = 50, n = 300), dvě hodnoty ρ (ρ = 0, ρ = 0.8) a dvě hodnoty m (m = 5, m = 15). Celkem 2 3 = 8 možných nastavení. Počet simulací pro každé nastavení: 1000. směrodatné chyby všech relativních četností jsou omezeny shora hodnotou 0.016. odhady směrodatných chyb různých výběrových průměrů (viz níže) nepřesahují 0.06. 12 / 30

1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 13 / 30

Značení p noise : Relativní četnost toho, že ve výsledném modelu zůstane alespoň jedna vysvětlující proměnná, jejíž skutečný regresní parametr je nulový. p authentic : Relativní četnost toho, že ve výsledném modelu budou všechny vysvětlující proměnné, jejichž skutečné parametry jsou nenulové. p correct : Relativní četnost toho, že ve výsledném modelu budou všechny vysvětlující proměnné, jejichž skutečné parametry jsou nenulové, a nebude tam žádná vysvětlující proměnná, jejíž skutečný parametr je nulový. p j (pro j = 1,..., k): Relativní četnost toho, že j-tá vysvětlující proměnná bude přítomna ve finálním modelu. 14 / 30

ave all : Průměrný počet všech vysvětlujících proměnných ve finálním modelu. ave authentic : Průměrný počet vysvětlujících proměnných ve finálním modelu, jejichž skutečné parametry jsou nenulové. 15 / 30

p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 5, rho = 0, n = 50 p_noise = 0.58 p_authentic = 0.01 p_correct = 0 ave_all = 3.79 ave_authentic = 2.86 p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 5, rho = 0, n = 300 p_noise = 0.56 p_authentic = 0.09 p_correct = 0.04 ave_all = 4.75 ave_authentic = 3.97 1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19 p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 5, rho = 0.8, n = 50 p_noise = 0.73 p_authentic = 0 p_correct = 0 ave_all = 2.96 ave_authentic = 1.69 p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 5, rho = 0.8, n = 300 p_noise = 0.63 p_authentic = 0.01 p_correct = 0 ave_all = 4.2 ave_authentic = 3.21 1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19 16 / 30

p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 15, rho = 0, n = 50 p_noise = 0.21 p_authentic = 0 p_correct = 0 ave_all = 8.44 ave_authentic = 8.2 p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 15, rho = 0, n = 300 p_noise = 0.22 p_authentic = 0.02 p_correct = 0.02 ave_all = 12.91 ave_authentic = 12.66 1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19 p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 15, rho = 0.8, n = 50 p_noise = 0.39 p_authentic = 0 p_correct = 0 ave_all = 5.93 ave_authentic = 5.46 p j 0.0 0.2 0.4 0.6 0.8 1.0 m = 15, rho = 0.8, n = 300 p_noise = 0.26 p_authentic = 0 p_correct = 0 ave_all = 10.4 ave_authentic = 10.11 1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19 17 / 30

Shrnutí Pravděpodobnosti různých finálních modelů p correct a p authentic jsou nízké, p noise je relativně vysoká. Vyšší hodnota m vede k nižší p noise a p authentic. Vyšší hodnota ρ vede k vyšší p noise a nižší p authentic a p correct. Vyšší hodnota n vede k mírně vyšší p authentic a p correct. Metoda forward vykazuje kvalitativně podobné chování. 18 / 30

1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 19 / 30

Značení B par : Odhad vychýlení odhadu regresního parametru β 3 = 0.8 (pro m = 5) resp. β 8 = 0.8 (pro m = 15). B cond : Odhad podmíněného vychýlení odhadu regresního parametru β 3 = 0.8 (pro m = 5) resp. β 8 = 0.8 (pro m = 15) za podmínky, že se příslušná vysvětlující proměnná vyskytuje ve finálním modelu. B eta : Odhad vychýlení odhadu regresní funkce v bodě [1, 1,..., 1]. Skutečná regresní funkce má v tomto bodě hodnotu 4 (pro m = 5) resp. 12 (pro m = 15). 20 / 30

p coverage : Relativní četnost pokrytí regresní funkce v bodě [1, 1,..., 1] 95% intervalem spolehlivosti pro regresní funkci napočítáným dle standardní teorie na základě finálního modelu. B resvar : Odhad vychýlení odhadu rozptylu chybové složky prostřednictvím reziduálního rozptylu napočteného na základě finálního modelu. 21 / 30

m = 5, rho = 0, n = 50 m = 5, rho = 0, n = 300 Abs. cetnost odhadu 0 100 200 300 B_par = 0.15 B_cond = 0.22 B_eta = 0.5 p_coverage = 0.69 B_resVar = 0.49 Abs. cetnost odhadu 0 50 100 150 200 250 B_par = 0.01 B_cond = 0.01 B_eta = 0.07 p_coverage = 0.82 B_resVar = 0.06 1 0 1 2 3 4 1 0 1 2 3 4 Abs. cetnost odhadu 0 100 300 500 700 m = 5, rho = 0.8, n = 50 B_par = 0.24 B_cond = 1.05 B_eta = 0.04 p_coverage = 0.92 B_resVar = 0.67 Abs. cetnost odhadu 0 50 100 150 200 250 m = 5, rho = 0.8, n = 300 B_par = 0.03 B_cond = 0.15 B_eta = 0.01 p_coverage = 0.94 B_resVar = 0.07 1 0 1 2 3 4 1 0 1 2 3 4 22 / 30

m = 15, rho = 0, n = 50 m = 15, rho = 0, n = 300 Abs. cetnost odhadu 0 100 200 300 400 B_par = 0.21 B_cond = 0.22 B_eta = 2.14 p_coverage = 0.49 B_resVar = 0.31 Abs. cetnost odhadu 0 50 100 150 200 250 B_par = 0 B_cond = 0 B_eta = 0.28 p_coverage = 0.87 B_resVar = 0.01 1 0 1 2 3 4 1 0 1 2 3 4 Abs. cetnost odhadu 0 100 300 500 700 m = 15, rho = 0.8, n = 50 B_par = 0.16 B_cond = 1.18 B_eta = 0.1 p_coverage = 0.93 B_resVar = 0.42 Abs. cetnost odhadu 0 50 100 150 200 250 m = 15, rho = 0.8, n = 300 B_par = 0.01 B_cond = 0.18 B_eta = 0.02 p_coverage = 0.94 B_resVar = 0.01 1 0 1 2 3 4 1 0 1 2 3 4 23 / 30

Shrnutí Inference Odhady regresních parametrů jsou vychýlené. Pokud je vysvětlující proměnná zahrnuta ve finálním modelu, tak je příslusný odhadnutý efekt v průměru nadhodnocený. Odhady regresní funkce jsou v obecnosti vychýlené a intervaly spolehlivosti pro regresní funkci nemají požadovaná pokrytí. Reziduální rozptyl napočtený z finálního modelu dle standardní teorie je vychýleným odhadem rozptylu chybové složky. Metoda forward vykazuje kvalitativně podobné chování. 24 / 30

1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 25 / 30

Přesnost odhadu regresní funkce S využitím Monte Carlo simulace odhadujeme R backward = MSE backward MSE full, kde MSE backward resp. MSE full = σ 2 k n jsou průměrné (napříč n původními body) střední čtvercové chyby odhadu regresní funkce na základě finálního modelu z krokové metody backward a na základě plného modelu s k vysvětlujícími proměnnými. Výsledky zakreslíme pro 8 nastavení a porovnáme je s R forward (pro α add = 0.05), s R bestsubset založené na upraveném indexu determinace a s metodou backward v situaci, kdy regresní parametry mají jen čtvrtinovou velikost oproti původnímu nastavení. 26 / 30

R 0.4 0.6 0.8 1.0 1.2 1.4 backward forward best subset backward : 1/4 efekty m = 5, rho = 0, n = 50 m = 5, rho = 0, n = 300 m = 5, rho = 0.8, n = 50 m = 5, rho = 0.8, n = 300 m = 15, rho = 0, n = 50 m = 15, rho = 0, n = 300 m = 15, rho = 0.8, n = 50 m = 15, rho = 0.8, n = 300 2 4 6 8 Nastaveni 27 / 30

Shrnutí Přesnosti odhadu regresní funkce Pro m=5 poskytla kroková metoda přesnější odhad regresní funkce (měřeno MSE) a potažmo přesnější předpovědi než plný model. Metoda best subset není záchranou. 28 / 30

1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda 3 Pravděpodobnosti různých finálních modelů 4 Inference 5 Přesnost odhadu regresní funkce 6 Rozšíření výsledků 29 / 30

Domníváme se, že analogické výsledky lze očekávat i v případě zobecněných lineárních modelů. 30 / 30