AVDAT Výběr regresorů v mnohorozměrné regresi

Podobné dokumenty
AVDAT Geometrie metody nejmenších čtverců

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Nelineární regresní model

odpovídá jedna a jen jedna hodnota jiných

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

AVDAT Mnohorozměrné metody, metody klasifikace

Bodové a intervalové odhady parametrů v regresním modelu

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Statistika (KMI/PSTAT)

Regresní a korelační analýza

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

AVDAT Mnohorozměrné metody metody redukce dimenze

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Kontingenční tabulky, korelační koeficienty

LINEÁRNÍ REGRESE. Lineární regresní model

Korelační a regresní analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

PRAVDĚPODOBNOST A STATISTIKA

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Normální (Gaussovo) rozdělení

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

4EK211 Základy ekonometrie

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Inovace bakalářského studijního oboru Aplikovaná chemie

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

4ST201 STATISTIKA CVIČENÍ Č. 10

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

AVDAT Náhodný vektor, mnohorozměrné rozdělení

4EK211 Základy ekonometrie

Ilustrační příklad odhadu LRM v SW Gretl

Normální (Gaussovo) rozdělení

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Statistická analýza jednorozměrných dat

5EN306 Aplikované kvantitativní metody I

REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD

Plánování experimentu

4EK211 Základy ekonometrie

You created this PDF from an application that is not licensed to print to novapdf printer (

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

6. Lineární regresní modely

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

6. Lineární regresní modely

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Testování statistických hypotéz

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Kontingenční tabulky, korelační koeficienty

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Tomáš Karel LS 2012/2013

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Testování hypotéz a měření asociace mezi proměnnými

Pokročilé neparametrické metody. Klára Kubošová

Testy statistických hypotéz

Úlohy nejmenších čtverců

6. Lineární regresní modely

Statistická analýza jednorozměrných dat

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

4EK211 Základy ekonometrie

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Semestrální práce. 2. semestr

6. Lineární regresní modely

Ekonometrie. Jiří Neubauer

Statistika II. Jiří Neubauer

Základy lineární regrese

Korelace. Komentované řešení pomocí MS Excel

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

KGG/STG Statistika pro geografy

4EK211 Základy ekonometrie

12. cvičení z PST. 20. prosince 2017

Regresní a korelační analýza

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica

Kanonická korelační analýza

Téma 9: Vícenásobná regrese

Lineární regrese. Komentované řešení pomocí MS Excel

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Tomáš Karel LS 2012/2013

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Transkript:

AVDAT Výběr regresorů v mnohorozměrné regresi Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita

Výběr správného lineárního modelu y = Xβ + ε, ale v matici X typu n (p + 1) je počet regresorů p velký. Velký počet regresorů má často za následek, že pak pro mnoho z parametrů β i, i = 1, 2,..., p nemůžeme zamítnout H 0 : β i = 0, tzn. i-tý regresor nevysvětluje změny hodnot veličiny y. Naším cílem je najít jednodušší model s k regresory (k < p), obsahující jen takové regresory, které významnou měrou vysvětlují variabilitu hodnot y.

Hledání vhodného lineárního modelu Řešit takovou úlohu prozkoumáním všech lineárních modelů k regresory, k = 1, 2,..., p, je pro větší hodnoty p časově neúnosné. Znamenalo by to prozkoumat p k=0 ( ) p = 2 p k modelů, tedy např. jen pro p = 10 výpočet a interpretaci výsledků odhadů 1024 modelů, což by představovalo práci na několik týdnů. Navíc pro velké hodnoty p bývá často matice X špatně podmíněná, tzn. determinant X T X =. 0 a odhady parametrů jsou pak numericky nestabilní a mají velké rozptyly, takže výsledky nejsou prakticky využitelné.

Kroková regrese Celkový součet čtverců lze rozložit: TSS = MSS + RSS Modelovou sumu modelu s k regresory MSS také můžeme rozložit: část MSS připadající i-tému regresoru, MSS(i 1, 2,..., i 1, i+1,..., k), označme ji zkratkou MSS k( i) MSS k( i) je tedy rozdíl modelové sumy čtverců MSS(k) při zařazení všech k regresorů a modelové sumy čtverců MSS(k 1) s (k 1) regresory (i tý regresor vynechán): MSS k( i) = MSS(k) MSS(k 1).

Kroková regrese Přidáním i tého regresoru se současně změní odpovídajícím způsobem i residuální součet čtverců RSS i = RSS(k 1) RSS(k) = MSS(k) MSS(k 1) = MSS k( i), nebot platí, že TSS = MSS(k) + RSS(k) = MSS(k 1) + RSS(k 1). Současně víme, že RSS i 0, tzn. přidáním regresoru se residuální součet čtverců nezvýší.

Kroková regrese Předpokládejme, že k 1 regresorů je už zařazeno v modelu. Budeme z dosud nezařazených vybírat takový regresor, který nejvíce snižuje residuální sumu čtverců, tj. ten, jehož RSS i je největší. Přitom zařadíme jen takový regresor, který residuální sumu čtverců snižuje významně. Kritériem (statistikou) pro posouzení významnosti je tzv. parciální F, což je MSS i s 2 F 1,ν, kde MSS i označuje zvýšení modelové sumy čtverců odpovídající zařazení i tého regresoru z dosud v modelu nezařazených, s 2 je nestranný odhad parametru σ 2 a ν je jeho počet stupňů volnosti.

Kroková regrese Implementace procedury krokové regrese se mohou lišit v tom, jakým způsobem je počítán s 2. Jedna z možností je počítat s 2 z residuální sumy čtverců v aktuálním kroku, tj. s 2 = RSS(k 1). n k Pak parciální F i i tého nezařazeného regresoru lze určit z parciálního a celkového korelačního koeficientu F i = [r iy 2 (k 1)]/(n k) 1 ry 2 = (k 1) RSS i RSS(k 1)/(n k), kde r iy (k 1) je parciální korelační koeficient Y a x i po odečtení vlivu (k 1) už zařazených regresorů a r Y (k 1) je mnohonásobný (celkový) koeficient korelace Y s (k 1) už zařazenými regresory.

Kroková regrese V k tém kroku zařadíme ten regresor, který má největší parciální F i, a to jen tehdy, je-li F i větší než zadaná hodnota F-to-entry, kterou obvykle volíme jako takový kvantil F rozdělení, aby parciální F i a tudíž i změna v residuálním součtu čtverců byly významné, F-to-entry = F 1,(n k 1) (1 α 1 ), kde α 1 je hladina významnosti pro zařazení regresoru do modelu. Po zařazení i tého regresoru může kvůli korelaci mezi zařazenými regresory nastat situace, že parciální F některého ze zařazených regresorů přestane být významné tzn. regresor je v modelu nadbytečný.

Kroková regrese Proto se po zařazení regresoru spočítají parciální F i všech dosud zařazených regresorů F i == RSS(i) s 2, kde RSS(i) znamená změnu (zvýšení) residuální sumy čtverců při vypuštění i tého regresoru z modelu. Posuzuje se pak, zda bychom vypuštěním regresoru zvýšili RSS jen nepodstatně. Kritérium pro toto rozhodování je to, zda minimální F i je menší než zadaná hodnota F-to-remove. Volíme F-to-remove = F 1,(n k 1) (1 α 2 ), kde α 2 je hladina významnosti pro vypuštění regresoru. Abychom předešli nekonečnému cyklu zařazování a vyřazování, volí se F-to-remove < F-to-entry, tj. α 2 > α 1!!!

Kroková regrese Analogický krokový (stepwise) postup se, jak uvidíme dále, užívá nejen v lineární regresi, ale i v dalších metodách analýzy mnohorozměrných dat. Existují i některé další varianty, tzv. postupných procedur výběru veličin do modelu, např. zpětná (backward) procedura, která vychází z modelu, ve kterém je zařazeno všech p veličin a postupně vyřazuje nevýznamné, nebo dopředná (forward) procedura, která je podobná výše popsané krokové proceduře, avšak neumožňuje vypouštění zařazených veličin, které se stanou nevýznamné.

Hledání nejlepší množiny regresorů all possible regressions nebo best subset of regressors pro p 15 pro p > 15 heuristika, která nezajišt uje vyčerpávající prohledání všech modelů, ale dovoluje větší počet regresorů. V NCSS je to procedura Multivariate Selection. S rostoucím k index determinace R 2 neklesá (obvykle roste). Vhodnějším kritériem je adjustovaný index determinace R 2 adj = 1 RSS/(n k 1) TSS/(n 1) = 1 n 1 n k 1 (1 R2 )

Hledání nejlepší množiny regresorů Mallowsova statistika C p C p = [n (k + 1)] s2 k [n 2(k + 1)] = s2 ( ) ( ) sk 2 = n s 2 1 sk 2 (k + 1) s 2 2 s 2 k je residuální rozptyl při k zařazených regresorech a s2 je residuální rozptyl při všech zařazených regresorech. Střední hodnota této statistiky je E(C p ) = k + 1.

Hledání nejlepší množiny regresorů Vzhledem k C p je nejlepší ten model, který má C p nejmenší, přibližně rovné počtu zařazených regresorů zvětšených o jedničku. Obvykle je však C p jen jedním z kritérií při hledání nejvhodnějšího modelu, musíme vzít do úvahy i residuální rozptyl a další kritéria, jako počet regresorů (čím méně, tím obvykle lépe), cena jejich měření, interpretaci vlivu regresoru na vysvětlovanou proměnnou atd. v závislosti na konkrétní úloze.

All Possible Results Section příklad Model Root Size R-Squared MSE Cp Model 1 0.765361 1.484322 848.389398 A (x1) 1 0.471363 2.227958 1943.984931 E (x5) 1 0.395810 2.381853 2225.534947 C (x3) 1 0.377170 2.418317 2295.000669 G (x7) 1 0.356763 2.457615 2371.046612 H (x8) 1 0.350940 2.468714 2392.745524 I (x9) 1 0.347381 2.475473 2406.008366 F (x6) 1 0.235375 2.679494 2823.404786 J (x10) 1 0.126059 2.864636 3230.773865 D (x4) 1 0.065507 2.962214 3456.422815 B (x2) 2 0.976958 0.4736817 61.867264 BE 2 0.826587 1.29947 622.230164 AE 3 0.985724 0.3799527 31.201415 AEF 3 0.980175 0.4477463 51.880208 BCE 4 0.988579 0.3465689 22.560822 AEFH 4 0.988347 0.3500752 23.426346 ABEF 5 0.991966 0.2966695 11.939729 ACDEF 6 0.993525 0.2720509 8.127863 ACDEFH... 7 0.994075 0.2660938 8.079170 ABCDEFH... 8 0.994333 0.266362 9.118089 ABCDEFHJ... 10 0.994901 0.2656163 11.000000 ABCDEFGHIJ