Základy lineární regrese

Podobné dokumenty
odpovídá jedna a jen jedna hodnota jiných

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

5EN306 Aplikované kvantitativní metody I

Korelační a regresní analýza

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE. Lineární regresní model

AVDAT Klasický lineární model, metoda nejmenších

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní analýza 1. Regresní analýza

AVDAT Geometrie metody nejmenších čtverců

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Inovace bakalářského studijního oboru Aplikovaná chemie

Regresní a korelační analýza

Bodové a intervalové odhady parametrů v regresním modelu

4EK211 Základy ekonometrie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Regresní a korelační analýza

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

AVDAT Nelineární regresní model

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

PRAVDĚPODOBNOST A STATISTIKA

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

10. Předpovídání - aplikace regresní úlohy

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Ilustrační příklad odhadu LRM v SW Gretl

6. Lineární regresní modely

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

7. Analýza rozptylu.

Regresní analýza. Eva Jarošová

Bodové a intervalové odhady parametrů v regresním modelu

Statistika (KMI/PSTAT)

Lineární regrese. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

AVDAT Výběr regresorů v mnohorozměrné regresi

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Jednofaktorová analýza rozptylu

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

6. Lineární regresní modely

Tomáš Karel LS 2012/2013

6. Lineární regresní modely

You created this PDF from an application that is not licensed to print to novapdf printer (

4EK211 Základy ekonometrie

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

UNIVERZITA PARDUBICE

4EK211 Základy ekonometrie

Regresní a korelační analýza

MODEL TVÁŘECÍHO PROCESU

Měření závislosti statistických dat

Odhad parametrů N(µ, σ 2 )

KGG/STG Statistika pro geografy

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Kalibrace a limity její přesnosti

Odhady Parametrů Lineární Regrese

Kalibrace a limity její přesnosti

Úvodem Dříve les než stromy 3 Operace s maticemi

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

6. Lineární regresní modely

Normální (Gaussovo) rozdělení

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Ekonometrie. Jiří Neubauer

Semestrální práce. 2. semestr

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Statistika II. Jiří Neubauer

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Tvorba nelineárních regresních

Úvod do analýzy časových řad

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Časové řady, typy trendových funkcí a odhady trendů

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Cvičení 9 dekompozice časových řad a ARMA procesy

S E M E S T R Á L N Í

Transkript:

Základy lineární regrese David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5. 7. 8. 2015 Tato akce se koná v rámci projektu: Vybudování vědeckého týmu environmentální metabolomiky a ekofyziologie a jeho zapojení do mezinárodních sítí (ENVIMET; r.č. CZ.1.07/2.3.00/20.0246) realizovaného v rámci Operačního programu Vzdělávání pro konkurenceschopnost David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 1 / 152

Obsah 1 Motivace 2 Základní pojmy 3 Přehled funkčních forem 4 Regresní analýza 5 Chybový člen 6 Testy hypotéz 7 Ověření kvality modelu 8 Klasický lineární model David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 2 / 152

Motivace Regrese je jedna z nejčastěji používaných metod. Cílem je vysvětlit variabilitu jedné proměnné pomocí jiných proměnných. Prakticky můžeme ověřovat zda vybraná proměnná má vliv na hodnoty jiné proměnné, jak silný je tento vliv, můžeme jej i vyčíslit. Dále např. můžeme predikovat proměnnou pomocí odhadnutého modelu. Řada praktických úloh lze vyřešit pomocí regrese, ačkoliv tak nemusí být přímo zadána (t-test, faktorová ANOVA, atd.). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 3 / 152

Základní kroky v aplikované regresní analýze 1 Přehled literatury a odvození teoretického modelu. 2 Specifikace modelu: výběr nezávisle proměnných; výběr funkční formy. 3 Vyslovení hypotéz o očekávaných znaméncích parametrů. 4 Sběr dat. 5 Odhad modelu a ověření předpokladů. 6 Zdokumentování výsledků. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 4 / 152

Logické schéma hledání adekvátního modelu Návrh experimentu Výběr problematiky Apriorní znalosti Sběr dat Volba třídy modelů Volba kriteria pro určení nejlepšího modelu Odhad parametrů modelu Ověření modelu Není v pořádku: revize modelu Je v pořádku: model použijeme (např. pro predikci) Zdroj: V. Veselý: Časové řady - pracovní text David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 5 / 152

Vysvětlovaná proměnná Vysvětlovaná proměnná Y neboli závislá proměnná; regresand. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 6 / 152

Vysvětlující proměnná Vysvětlující proměnná X neboli nezávislá proměnná; regresor. Jako vysvětlující proměnná může vystupovat také zpožděná proměnná; umělá (dummy, indikativní) proměnná. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 7 / 152

Zpožděná proměnná V některých případech uběhne určitý čas mezi změnou ve vysvětlující proměnné a reakcí ve vysvětlované proměnné zpoždění. Zapisujeme např. X 1,t 1, kde index t 1 značí, že pozorování proměnné X 1 je z předcházejícího období. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 8 / 152

Umělá (dummy, indikativní) proměnná Proměnná, která obvykle nabývá hodnot nula nebo jedna. V některých případech je potřeba do modelu zařadit i slovní znaky, které je nutné převést na kvantitativní znaky. Příklad: pohlaví muž = 1; žena = 0. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 9 / 152

Přehled funkčních forem David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 10 / 152

Volba funkční formy Rozeznáváme modely lineární v parametrech; modely nelineární v parametrech, avšak transformovatelné na modely lineární v parametrech (linearizovatelné modely); modely nelineární v parametrech. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 11 / 152

Lineární modely Polynomiální model s jednou proměnnou Polynom stupně 1 (přímka) Polynom stupně 2 (parabola) Polynom stupně 3 Y i = β 0 + β 1 X i, i = 1,..., n. Y i = β 0 + β 1 X i + β 2 X 2 i, i = 1,..., n. Y i = β 0 + β 1 X i + β 2 X 2 i + β 3 X 3 i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 12 / 152

Lineární modely 14 12 10 Y 8 6 4 2 0 5 10 15 X Polynom 1. stupně (β 0 = 3, β 1 = 0,7). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 13 / 152

Lineární modely 70 60 50 Y 40 30 20 10 0 0 5 10 15 X Polynom 2. stupně (β 0 = 3, β 1 = 0,7, β 2 = 0,3). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 14 / 152

Lineární modely 30 25 20 Y 15 10 5 0 0 5 10 15 X Polynom stupně 3 (β 0 = 3, β 1 = 0,7, β 2 = 0,3, β 3 = 0,018). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 15 / 152

Lineární modely Polynomiální model s více proměnnými Vysvětlovaná veličina je modelována pomocí více různých proměnných. Obvykle tyto proměnné nejsou umocněny, někdy se používají 2. či 3. mocniny vybraných proměnných. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 16 / 152

Lineární modely Polynomiální model s více proměnnými Proměnné neumocněny Y i = β 0 + β 1 X 1,i + β 2 X 2,i + β 3 X 3,i, i = 1,..., n. Proměnné neumocněny, jiné značení než výše Y i = β 0 + β 1 X i + β 2 Z i + β 3 V i, i = 1,..., n. Proměnné v polynomech různých stupňů Y i = β 0 + β 1 X i + β 2 X 2 i + β 3 Z i + β 4 Z 2 i + β 5 Z 3 i + β 6 V i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 17 / 152

Lineární modely Inverzní (reciproční) model Jedna či více proměnných modelu je umocněna na 1. Tento model může mimo jiné nabývat následujících forem: Právě jedna proměnná, ta umocněna na 1 Y i = β 0 + β 1 1 X i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 18 / 152

Lineární modely 55 50 45 40 35 30 Y 25 20 15 10 5 0 0 5 10 15 X Inverzní model s jednou proměnnou (β 0 = 3, β 1 = 20). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 19 / 152

Lineární modely Inverzní (reciproční) model Jedna či více proměnných modelu je umocněna na 1. Tento model může mimo jiné nabývat následujících forem: Právě dvě proměnné, z toho jedna proměnná umocněna na 1 Y i = β 0 + β 1 1 X i + β 2 Z i, i = 1,..., n, Při znalosti modelu můžeme fixovat jednu z proměnných a vykreslit model pomocí dvojrozměrného bodového grafu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 20 / 152

Lineární modely 70 60 50 Y 40 30 20 10 0 20 40 60 80 100 120 i Inverzní model se dvěma proměnnými (β 0 = 3, β 1 = 20, β 2 = 0,3). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 21 / 152

Lineární modely 80 70 60 50 Y 40 30 20 10 0 5 10 15 X, Z fixovano Inverzní model se dvěma proměnnými, fixována lineární proměnná (Z i = 30). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 22 / 152

Lineární modely 30 25 20 Y 15 10 5 0 0 5 10 15 Z, X fixovano Inverzní model se dvěma proměnnými, fixována inverzní proměnná (X i = 7). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 23 / 152

Lineární modely Inverzní (reciproční) model Jedna či více proměnných modelu je umocněna na 1. Tento model může mimo jiné nabývat následujících forem: Právě tři proměnné, z toho dvě proměnné umocněny na 1 Y i = β 0 + β 1 1 X i + β 2 1 Z i + β 3 V i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 24 / 152

Linearizovatelné modely Některé nelineární modely lze vhodnou transformací převést na modely lineární, linearizovat je. Obvykle se k tomuto účelu používá přirozený logaritmus. Odhady parametrů pomocí linearizace jsou většinou horší než pomocí technik pro nelineární modely. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 25 / 152

Linearizovatelné modely Exponenciální (mocninný) model Jedná se o nelineární model Y i = β 0 X β 1 i e u i, i = 1,..., n, který je možno linearizovat zlogaritmováním: ln Y i = ln β 0 + β 1 ln X i + u i, i = 1,..., n. Po zavedení parametru α = ln β 0 dostaneme finální tvar modelu jako ln Y i = α + β 1 ln X i + u i, i = 1,..., n, což už je model lineární v parametrech. Zda je tento model vhodný pro analyzovaná data zjistíme vykreslením zlogaritmovaných proměnných pomocí bodového grafu body by se měly řadit kolem pomyslné přímky. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 26 / 152

Linearizovatelné modely 400 350 300 250 200 150 100 50 ln Y 8 6 4 2 0 2 4 6 8 10 0 0 5 10 15 X 12 5 4 3 2 1 0 1 2 3 ln X Exponenciální model s parametrem β 1 > 0 (β 0 = 0,7, β 1 = 2,3). Na levém grafu zobrazen původní model, na pravém linearizovaný model. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 27 / 152

Linearizovatelné modely 4.5 2 4 3.5 3 1.5 1 2.5 2 1.5 ln Y 0.5 0 1 0.5 0.5 0 0 2 4 6 8 10 12 14 X 1 5 4 3 2 1 0 1 2 3 ln X Exponenciální model s parametrem 0 < β 1 < 1 (β 0 = 1,7, β 1 = 0,3). Na levém grafu zobrazen původní model, na pravém linearizovaný model. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 28 / 152

Linearizovatelné modely 35 8 30 6 25 20 15 10 ln Y 4 2 0 5 2 0 0 1 2 3 4 5 6 7 X 4 5 4 3 2 1 0 1 2 3 ln X Exponenciální model s parametrem β 1 < 0 (β 0 = 5, β 1 = 1,15). Na levém grafu zobrazen původní model, na pravém linearizovaný model. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 29 / 152

Linearizovatelné modely Dvojitě exponenciální (mocninný) model Jedná se o nelineární model Y i = e β 0 X β 1 i Z β 2 i e u i, i = 1,..., n, který je opět možno linearizovat zlogaritmováním: ln Y i = β 0 + β 1 ln X i + β 2 ln Z i + u i, i = 1,..., n, což je model lineární v parametrech. Pokud jednu z proměnných fixujeme, bude průběh analogický k exponenciálnímu modelu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 30 / 152

Linearizovatelné modely Logaritmický inverzní model Nelineární model ( ) Y i = α e 1 β1 X i, α, β1 > 0, i = 1,..., n, lze logaritmováním převést na model lineární v parametrech kde β 0 = ln α. ln Y i = β 0 β 1 1 X i, i = 1,..., n, David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 31 / 152

Linearizovatelné modely 0.7 0.6 0.5 0.25 0.2 0.4 0.15 Y 0.3 0.1 0.2 0.1 0 0 5 10 15 X 0.05 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 X Vlevo logaritmický inverzní model v nelineární formě (α = 0,5, β 1 = 1,32), vpravo detail. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 32 / 152

Nelineární modely Následující modely nelze linearizovat, pro odhad jejich parametrů je nutno použít speciální postupy či obecné metody odhadů v nelineárních modelech. Modifikovaný exponenciální model Y i = β 0 + β 1 β X i 2, β 2 > 0, i = 1,..., n. Parametr β 0 odpovídá asymptotické úrovni, kam regresní funkce roste (β 1 < 0), popř. klesá (β 1 > 0). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 33 / 152

Nelineární modely 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 10 20 30 40 50 60 70 80 X Y 6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 0 10 20 30 40 50 60 70 80 X Modifikovaný exponenciální model. Na levém grafu β 0 = 5, β 1 = 4 a β 2 = 0,95; na pravém grafu β 0 = 2, β 1 = 4 a β 2 = 0,95. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 34 / 152

Nelineární modely Logistický model Tento model je rozšířením modifikovaného exponenciálního modelu o inflexní bod. Y i = β 0 1 + β 1 β X i 2, β 0, β 2 > 0, i = 1,..., n, David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 35 / 152

Nelineární modely 6 5 4 Y 3 2 1 0 0 10 20 30 40 50 60 X Logistický model (β 0 = 5, β 1 = 10, β 2 = 0,85). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 36 / 152

Nelineární modely Gompertzova křivka Y i = e β 0+β 1 β X i 2, β2 > 0, i = 1,..., n. Podobná jako logistický model, jen inflexní bod je umístěn jiným způsobem. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 37 / 152

Nelineární modely 35 30 25 20 Y 15 10 5 0 5 0 10 20 30 40 50 60 X Gompertzova křivka (β 0 = 3,4, β 1 = 3,91, β 2 = 0,85). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 38 / 152

Typy datových souborů 1 Průřezová data (viz náhodné výběry) pozorování mnoha jevů v jednom časovém okamžiku. 2 Časové řady pozorování jednoho jevu přes několik časových období. 3 Panelová data pozorování mnoha jevů po několik časových období. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 39 / 152

Regresní analýza David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 40 / 152

Regresní analýza Regresní analýza je označení statistických metod, pomocí nichž odhadujeme hodnotu jisté náhodné veličiny (tzv. závisle proměnné, vysvětlované proměnné) na základě znalosti jiných veličin (tzv. nezávisle proměnných, vysvětlujících proměnných). Y = f (X 1, X 2,..., X k ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 41 / 152

Jednorozměrná regresní analýza Jednorozměrná regresní analýza je využívána ke studiu vztahu mezi dvěmi proměnnými: Y = f (X ). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 42 / 152

Vícerozměrná regresní analýza Vícerozměrná regresní analýza je využívána ke studiu vztahu mezi závisle proměnnou a dvěmi či více nezávisle proměnnými: Y = f (X 1, X 2,..., X k ). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 43 / 152

Odhad parametrů David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 44 / 152

Odhad parametrů regresního modelu Snahou je na základě datového souboru a vyrovnávacích kritéríı odhadnout parametry β 0, β 1,..., β k teoretického regresního modelu Y = f (X 1,..., X k, β 0, β 1,..., β k ) + ɛ. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 45 / 152

Odhad parametrů regresního modelu Pokud do funkčního vztahu dosadíme za parametry β 0, β 1,..., β k jejich odhady ˆβ 0, ˆβ 1,..., ˆβ k, dostaneme odhad Ŷ získaný na základě modelu Ŷ = f (X 1,..., X k, ˆβ 0, ˆβ 1,..., ˆβ k ) Y = f (X 1,..., X k, β 0, β 1,..., β k ) + ɛ. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 46 / 152

Metoda nejmenších čtverců (OLS) OLS je nejrozšířenější metoda odhadu parametrů teoretického modelu. Tato metoda je založena na minimalizaci sumy čtverců rozdílů mezi původními hodnotami vysvětlované proměnné a jejími odhadnutými hodnotami n (Y i Ŷ i ) 2. i=1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 47 / 152

Metoda nejmenších čtverců Rozdíl mezi empirickou hodnotou a teoretickou hodnotou e i = Y i Ŷ i nazveme reziduum. OLS je tak založena na minimalizaci sumy čtverců reziduí: n (e i ) 2 min. i=1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 48 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS Naším cílem je minimalizace výrazu Q, tedy Q = n (Y i Ŷ i ) 2 min. i=1 Minimalizaci můžeme provést pomocí techniky známé z matematické analýzy nejedná se o nic jiného než o hledání extrému funkce jedné či více proměnných: Vypočteme parciální derivace podle všech proměnných (zde parametrů). Parciální derivace položíme rovny 0. Z těchto rovnic utvoříme soustavu rovnic, kterou vyřešíme. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 49 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS Příklad: Y i = β 0 + β 1 X i + ɛ i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 50 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS Teoretický jednorozměrný regresní model (např. lineární funkční tvar): Y i = β 0 + β 1 X i + ɛ i, i = 1,..., n. Tento model můžeme odhadnout jako Ŷ i = ˆβ 0 + ˆβ 1 X i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 51 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS Minimalizujeme sumu čtverců reziduí: Q = n (e i ) 2 = i=1 n (Y i Ŷ i ) 2. i=1 Po dosazení Ŷ i = ˆβ 0 + ˆβ 1 X i, i = 1,..., n dostaneme Q = n (Y i ˆβ 0 ˆβ 1 X i ) 2. i=1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 52 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS Naším cílem je minimalizace výrazu Q, tedy Q = n (Y i ˆβ 0 ˆβ 1 X i ) 2 min. i=1 Připomeňme: Vypočteme parciální derivace podle všech proměnných (zde parametrů). Parciální derivace položíme rovny 0. Z těchto rovnic utvoříme soustavu rovnic, kterou vyřešíme. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 53 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS V našem případě: a Q β 0 = 2 Q β 1 = 2 n (Y i ˆβ 0 ˆβ 1 X i ) ( 1) i=1 n (Y i ˆβ 0 ˆβ 1 X i ) ( X i ). i=1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 54 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS V našem případě: n 2 (Y i ˆβ 0 ˆβ 1 X i ) ( 1) = 0 i=1 n 2 (Y i ˆβ 0 ˆβ 1 X i ) ( X i ) = 0 i=1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 55 / 152

Odhad jednorozměrného regresního modelu pomocí metody OLS n Y i = n ˆβ 0 + ˆβ 1 i=1 n Y i X i = ˆβ 0 i=1 n i=1 n X i + ˆβ 1 i=1 X i n i=1 X 2 i David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 56 / 152

Maticový zápis modelu vícenásobné regrese Model vícenásobné regrese můžeme vyjádřit jako Y = Xβ + ɛ, kde: Y náhodný vektor pozorování závisle proměnné; X matice pozorování nezávisle proměnných typu (n, k + 1); β vektor neznámých parametrů; ɛ vektor náhodných chyb. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 57 / 152

Maticový zápis modelu vícenásobné regrese Y 1 Y 2. Y n 1 X 11 X 21 X k1 1 X 12 X 22 X k2 =.... 1 X 1n X 2n X kn β 0 β 1. β k + ɛ 1 ɛ 2. ɛ n David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 58 / 152

Maticový zápis modelu vícenásobné regrese Vektor parametrů regresního modelu lze pak odhadnout pomocí vztahu ˆβ = (X T X) 1 X T Y. Odhad vhodné regresní funkce lze pak zapsat jako Ŷ = Xˆβ. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 59 / 152

Chybový člen David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 60 / 152

Chybový člen (náhodná složka) Y i = β 0 + β 1 X i + ɛ i, i = 1,..., n. Popisuje závislost vysvětlované proměnné na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody. Nelze ji funkčně vyjádřit. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 61 / 152

Důvody zapojení chybového členu Opomenuty vlivy nezávisle proměnných na Y v regresní rovnici. Chyby měření v modelu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 62 / 152

Využití odhadu chybového členu Odhadem náhodné složky ɛ i, i = 1,..., n konkrétního modelu jsou rezidua e i, i = 1,..., n. Analýza reziduí může pomoci ověřit, zda zvolený model je pro data vhodný či ne. Graf reziduí může orientačně ukázat zanedbanou funkční formu vysvětlující proměnné. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 63 / 152

Využití odhadu chybového členu Data modelovaná adekvátně pomocí polynomu 2. stupně. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 64 / 152

Využití odhadu chybového členu Data modelovaná pomocí přímky. Rozdíl není na první pohled příliš vidět. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 65 / 152

Využití odhadu chybového členu Graf reziduí modelu s přímkou ukazuje, že rezidua se shlukují do tvaru paraboly, která byla v tomto modelu zanedbána. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 66 / 152

Využití odhadu chybového členu Graf reziduí testuje vhodnost či dostatečnost modelu pouze orientačně. Rezidua by teoreticky měla být náhodně rozložena kolem nulové hodnoty. V dalším uvedeme testy parametrů i celého modelu pro exaktnější posouzení. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 67 / 152

Dodatečné podmínky E(ɛ) = 0 var (ɛ) = σ 2 I ɛ N(0, σ 2 I) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 68 / 152

Dodatečné podmínky Matice X je plné hodnosti, což znamená, že matice X T X je regulární. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 69 / 152

Testy hypotéz o jednom parametru David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 70 / 152

Rozdělení pravděpodobnosti v regresním modelu Y N(Xβ, σ 2 I) ˆβ N(β, σ 2 (X T X) 1 ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 71 / 152

Rozdělení pravděpodobnosti v regresním modelu Odhad ˆβ je nestranným odhadem β. Rozptyly odhadu ˆβ jsou na diagonále matice σ 2 (X T X) 1. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 72 / 152

Oboustranný interval spolehlivosti pro regresní parametr ( ˆβ i SE( ˆβ i )t 1 α/2 (n p); ˆβ i + SE( ˆβ i )t 1 α/2 (n p)) Směrodatná chyba odhadu parametru β i : RSS SE( ˆβ i ) = n p h i+1,i+1 Připomeňme: n je počet pozorování, p je počet parametrů modelu. H = (X T X) 1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 73 / 152

Testování hypotéz o jednom regresním parametru Tento test se obvykle označuje jako t-test. Většinou používán pro testování významnosti regresního parametru v modelu. Obecně může být použit k testování hypotézy, že je skutečný regresní parametr roven konkrétnímu reálnému číslu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 74 / 152

Testování hypotéz o jednom regresním parametru T i = ˆβ i c SE( ˆβ i ) i = 0,..., p RSS SE( ˆβ i ) = n p h i+1,i+1 H = (X T X) 1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 75 / 152

Testování hypotéz o jednom regresním parametru Oboustranná alternativa: H 0 : β i = c H 1 : β i c W = ( ; t 1 α/2 (n p) t 1 α/2 (n p); ) Levostranná alternativa: H 0 : β i = c H 1 : β i < c Pravostranná alternativa: W = ( ; t 1 α (n p) H 0 : β i = c H 1 : β i > c W = t 1 α (n p); ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 76 / 152

Testování hypotéz o jednom regresním parametru T-test netestuje věcnou správnost zařazení vysvětlující proměnné do modelu. T-test neidentifikuje věcnou důležitost vysvětlující proměnné. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 77 / 152

Testování hypotéz o jednom regresním parametru Test významnosti: oboustranný test s c = 0; testuje, zda by odpovídající proměnná v modelu být měla, či nikoliv (nelze ovšem používat samostatně ani automaticky!); testová statistika se zjednoduší: T i = ˆβ i c SE( ˆβ i ) T i = ˆβ i SE( ˆβ i ). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 78 / 152

Analýza rozptylu David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 79 / 152

Analýza rozptylu Celkový součet čtverců TSS = n ( Yi Ȳ ) 2 i=1 Regresní součet čtverců Reziduální součet čtverců ESS = RSS = n ) 2 (Ŷi Ȳ i=1 n ) 2 (Y i Ŷ i i=1 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 80 / 152

Analýza rozptylu SS suma čtverců SS Stupně volnosti MS F Regrese ESS p 1 ESS p 1 Rezidua RSS n p RSS n p Celkem TSS n 1 MS průměrný čtverec p počet regresních parametrů n počet pozorování ESS/(p 1) RSS/(n p) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 81 / 152

Analýza rozptylu F = ESS/(p 1) F (p 1, n p) RSS/(n p) H 0 : β 1 = β 2 = = β k = 0 H 1 : nonh 0 W = F 1 α (p 1, n p); ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 82 / 152

Analýza rozptylu SS Stupně volnosti MS p-hodnota Regrese ESS p 1 ESS p 1 Rezidua RSS n p RSS n p Celkem TSS n 1 p-hodnota < α: H 0 zamítám p-hodnota > α: H 0 nemůžu zamítnout p-hodnota David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 83 / 152

Analýza rozptylu Rozklad čtverců: n i=1 ( Yi Ȳ ) 2 = ) 2 n i=1 (Ŷi Ȳ + ( ) 2 n i=1 Y i Ŷi TSS = ESS + RSS Vztah mezi stupni volnosti: DF cel = DF reg + DF rez n 1 = (p 1) + (n p) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 84 / 152

Příklad V tabulce jsou uvedeny zisky [tis. Kč] společnosti nabízející venkovní bazény v letech 1991 až 2009, dále kalendářní rok, maximální roční teplota [ C] a celková doba [hod] reklamy v televizi. Lze z těchto dat usoudit, že zisky jsou ovlivňovány uvedenými prediktory? (Převzato z Budíková, Králová, Maroš: Průvodce základními statistickými metodami, Grada 2010; upraveno a doplněno.) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 85 / 152

Příklad Zisk Rok Teplota Reklama Zisk Rok Teplota Reklama 17504 1991 34,9 0,0 18287 2001 35,3 6,5 18971 1992 35,8 3,6 20111 2002 34,8 6,5 20121 1993 35,0 6,8 17890 2003 36,8 7,2 19420 1994 36,0 5,9 19864 2004 32,5 7,0 19563 1995 35,0 6,1 21408 2005 36,4 6,0 19996 1996 34,8 6,7 18244 2006 35,3 6,5 19635 1997 35,1 6,2 19884 2007 37,3 7,5 20219 1998 36,1 7,0 19910 2008 32,5 6,6 20287 1999 34,8 7,0 20588 2009 34,1 6,2 20111 2000 35,6 6,8 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 86 / 152

Příklad Zvoĺıme α = 0,05. Počet úrovní je n = 19. Počet regresorů je k = 3 a jsou to rok, teplota, reklama (včetně konstanty máme p = 4 parametry). Označíme: Y = zisk, x 1,1 = 1991,..., x 19,1 = 2009, x 1,2 = 34,9,..., x 19,2 = 34,1, x 1,3 = 0,0,..., x 19,3 = 6,2. Místo x 1,1 = 1991,..., x 19,1 = 2009 můžeme také položit x 1,1 = 1,..., x 19,1 = 19, čímž se pouze změní odhad konstanty β 0. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 87 / 152

Příklad Odhadneme parametry modelu Obdržíme: Y i = β 0 + k β j x ij + ɛ i pro i = 1,..., 19. j=1 zisk = 24255,9 1,18 rok 115,79 teplota +287,88 reklama Koeficient Směr. chyba t-podíl p-hodnota const 24255,9 95845,0 0,2531 0,8036 rok 1,18190 47,3632 0,0250 0,9804 teplota 115,791 185,261 0,6250 0,5414 reklama 287,875 155,833 1,8473 0,0845 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 88 / 152

Příklad DF SS MS F p-hodnota Regrese 3 4,46084 10 6 1,48695 10 6 1,69756 0,2102 Rezidua 15 1,3139 10 7 875935 Celek 18 1,75999 10 7 W = F 1 α (p 1, n p); ) = F 0,95 (3, 15); ) = 3,2874; ) F / W Nevýznamnost modelu nezamítám. p-hodnota > α Nevýznamnost modelu nezamítám. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 89 / 152

Příklad párový koeficient korelace zisk rok teplota reklama 1,0000 0,2775 0,1269 0,4831 zisk 1,0000 0,1690 0,5298 rok 1,0000 0,0304 teplota 1,0000 reklama David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 90 / 152

Příklad zisk = 21869,5 114,781 teplota +285,763 reklama Koeficient Směr. chyba t-podíl p-hodnota const 21869,5 6183,98 3,5365 0,0027 teplota 114,781 175,052 0,6557 0,5213 reklama 285,763 126,708 2,2553 0,0385 p-hodnota F-testu: 0,096510 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 91 / 152

Příklad zisk = 17848,9 +283,236 reklama Koeficient Směr. chyba t-podíl p-hodnota const 17848,9 787,785 22,6571 0,0000 reklama 283,236 124,508 2,2748 0,0362 p-hodnota F-testu: 0,036155 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 92 / 152

Ověření kvality modelu David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 93 / 152

Koeficient determinace Dalším kriteriem pro posouzení kvality modelu může být koeficient determinace. Informace koncentrovaná do jednoho čísla. Může nabývat hodnot od 0 do 1. Hodnoty bĺızké 1: model vyhovuje. Hodnoty bĺızké 0: model nevyhovuje. Jednoduchý výpočet. Nezahrnuje počet vysvětlujících proměnných, s přidáním další vysvětlující proměnné roste to není vždy žádoucí. R 2 = ESS TSS = 1 RSS TSS David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 94 / 152

Přeparametrizování modelu Přidáním dalších a dalších vysvětlujících proměnných se zlepší některá kriteria hodnotící model (např. index determinace). Příliš mnoho vysvětlujících proměnných ale může být na škodu: Numerické problémy. Neinterpretovatelnost. Nereálná znaménka u odhadů parametrů. Nepoužitelnost v praxi (např. pro predikce). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 95 / 152

Přeparametrizování modelu David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 96 / 152

Přeparametrizování modelu David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 97 / 152

Přeparametrizování modelu David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 98 / 152

Přeparametrizování modelu Model je trénován na dostupných datech, ale pro odhad budoucích hodnot nebo vůbec pro použitelnost modelu s naměřenými budoucími daty je žádoucí, aby model zachycoval hlavní směr vývoje, nikoliv jednotlivá náhodná vychýlení. Zásadou je, že počet pozorování n je mnohem větší než počet parametrů (vysvětlujících proměnných) p. Proto byla odvozena kriteria, která počet vysvětlujících proměnných zachycují. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 99 / 152

Korigovaný koeficient determinace Informace koncentrovaná do jednoho čísla. Může nabývat hodnot od 0 do 1. Hodnoty bĺızké 1: model vyhovuje. Hodnoty bĺızké 0: model nevyhovuje. Jednoduchý výpočet. Zahrnuje počet vysvětlujících proměnných. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 100 / 152

Korigovaný koeficient determinace Pro model kde p = k + 1, dostaneme Y = β 0 + β 1 X 1 + β 2 X 2 +... + β k X k + ε, R 2 = 1 ( 1 R 2) n 1 n p. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 101 / 152

Informační kriteria Informační kriteria slouží zejména k porovnání více modelů se stejnou vysvětlovanou proměnnou a různými vysvětlujícími proměnnými. Jejich hodnota není omezena. Jako nejlepší model vybereme ten, který bude mít nejmenší hodnotu informačního kriteria (platí pro kriteria zde uvedená). Různá kriteria mohou doporučit jiné modely, v tom případě je třeba podrobit modely vybrané různými kritérii podrobnější analýze. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 102 / 152

Akaikeho informační kritérium Původní verze: Po úpravách: AIC = 2k + n[ln(2πrss/n) + 1] AIC = 2k + n ln(2π) + n ln(rss) n ln(n) + n Vybereme pouze složky závislé na počtu proměnných: AIC = 2k + n ln(rss) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 103 / 152

Schwarzovo (Bayesovské) informační kritérium ( RSS SIC = BIC = n ln n ) + k ln(n) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 104 / 152

Hannanovo-Quinnovo informační kriterium ( RSS HQC = n ln n ) + 2k ln ln(n) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 105 / 152

Interval a pás spolehlivosti pro model David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 106 / 152

Interval spolehlivosti pro regresní model Též predikční interval spolehlivosti. Je to interval, ve kterém se s vysokou pravděpodobností (1 α) bude vyskytovat regresní model s teoretickými parametry. Obecně používaný vzorec: (Ŷ SE( Ŷ i )t 1 α/2 (n p); Ŷ + SE(Ŷi)t 1 α/2 (n p)). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 107 / 152

Interval spolehlivosti pro regresní model Standardní chyba m ii je diagonální prvek matice RSS SE(Ŷ i ) = n p m ii M = X(X T X) 1 X T David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 108 / 152

Interval spolehlivosti pro regresní model Interval spolehlivosti pro regresní model 50000 45000 40000 C_1ob 35000 30000 25000 20000 25000 30000 35000 40000 45000 50000 55000 YD_1ob David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 109 / 152

Pás spolehlivosti pro regresní model Je to plocha, v níž se za předpokladu vyhovujícího modelu s vysokou pravděpodobností (1 α) budou vyskytovat napozorované hodnoty. Přesný vzorec: ( RSS Ŷ n p + (SE(Ŷ i )) 2 t 1 α/2 (n p); ) RSS Ŷ + n p + (SE(Ŷ i )) 2 t 1 α/2 (n p). Přibližný vzorec: ( ) RSS Ŷ n p t RSS 1 α/2(n p); Ŷ + n p t 1 α/2(n p). Pás spolehlivosti, ačkoliv na grafu vypadá podobně jako interval spolehlivosti pro model, má zcela jinou interpretaci. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 110 / 152

Pás spolehlivosti pro regresní model Pás spolehlivosti kolem regresního modelu 50000,0 45000,0 40000,0 C_1ob 35000,0 30000,0 25000,0 20000,0 25000,0 30000,0 35000,0 40000,0 45000,0 50000,0 55000,0 YD_1ob David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 111 / 152

Klasický lineární model David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 112 / 152

Motivace Odhady a testy vztahující se k lineární regresi vykazují za splnění určitých předpokladů velmi dobré vlastnosti. Předpoklady kladené na regresi je nutno ověřovat, a to zejména statistickými testy. S některými předpoklady jsme se již seznámili, další uvedeme či precizujeme nyní. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 113 / 152

Klasický lineární model Y 1 Y 2. Y n 1 X 11 X 21 X k1 1 X 12 X 22 X k2 =.... 1 X 1n X 2n X kn β 0 β 1. β k + ɛ 1 ɛ 2. ɛ n David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 114 / 152

Předpoklady klasického lineárního regresního modelu Jedná se o předpoklady, při jejichž splnění je odhad parametrů metodou nejmenších čtverců považován za nejlepší možný. Odhady parametrů dané metodou nejmenších čtverců pak mají dobré vlastnosti: jsou nestranné; jsou maximálně vydatné; jsou konzistentní; jsou normálně rozdělené. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 115 / 152

Předpoklady klasického lineárního regresního modelu I. Regresní model je lineární v parametrech, je správně specifikován a má aditivně připojen chybový člen. II. Chybový člen má nulovou střední hodnotu. III. Všechny vysvětlující proměnné jsou nekorelované s chybovým členem. IV. Pozorování chybového členu nejsou korelována se sebou samými (nedochází k autokorelaci chybového členu). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 116 / 152

Předpoklady klasického lineárního regresního modelu V. Chybový člen má konstantní rozptyl (homoskedasticita chybového členu). VI. Žádná vysvětlující proměnná není lineární kombinací jiné vysvětlující proměnné (nedochází k perfektní multikolinearitě). VII. Chybový člen je normálně rozdělen. Předpoklad VII je volitelný, ale obvykle je zahrnut. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 117 / 152

Předpoklady klasického lineárního regresního modelu Chybový člen splňující předpoklady I. až V. je nazýván klasický chybový člen. V případě přidání a splnění sedmého předpokladu je chybový člen nazýván klasickým normálním chybovým členem. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 118 / 152

Klasický předpoklad I. Regresní model je lineární v parametrech, je správně specifikován a má aditivně připojen chybový člen. Regresní model lineární v parametrech: Y i = β 0 + β 1 X 1i + + β k X ki + ɛ i Regresní model s aditivně připojeným chybovým členem: Y = f (X 1,..., X k, β 0, β 1,..., β k ) + ɛ. Pokud není splněno, někdy možno upravit: Y i = β 0 β X 1i 1 β X ki k ɛ i ln Y i = ln β 0 + X 1i ln β 1 + + X ki ln β k + ln ɛ i ln Y i = α 0 + X 1i α 1 + + X ki α k + ν i David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 119 / 152

Klasický předpoklad I. Správná specifikace modelu: výběr vhodných vysvětlujících proměnných; výběr vhodné funkční formy. Chyby specifikace: opomenutá proměnná; nadbytečná proměnná; chybně zvolená funkční forma. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 120 / 152

Klasický předpoklad I. Opomenutá proměnná Opomenutá proměnná je definována jako důležitá vysvětlující proměnná (nezávisle proměnná), která je v regresním modelu vynechána. Opomenutá proměnná způsobuje vychýlení odhadnutých parametrů modelu (specifikační vychýlení), tj. E( ˆβ) β. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 121 / 152

Klasický předpoklad I. Nadbytečná proměnná Nadbytečná proměnná je definována jako vysvětlující proměnná v modelu, která však do modelu nepatří. Přidání nadbytečné proměnné do modelu nezpůsobuje vychýlení, ale zvyšuje variabilitu parametrů zahrnutých v modelu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 122 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Umělá (dummy) proměnná Proměnná, která nabývá pouze dvou hodnot (obvykle nula nebo jedna). V některých případech je potřeba do modelu zařadit i slovní znaky, které je nutné převést na kvantitativní znaky, např. pohlaví: muž = 1; žena = 0. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 123 / 152

Metody přidávání nezávisle proměnných Velmi často jsou při hledání optimální podmnožiny vysvětlujících proměnných využívány metody tzv. postupného výběru regresorů (tzv. sekvenční metody), jejichž reprezentanty jsou: vzestupný výběr (forward selection); sestupný výběr (backward selection); kroková (schodovitá) regrese (stepwise regression). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 124 / 152

Metody přidávání nezávisle proměnných Vzestupný výběr (forward selection) Metoda probíhá v několika krocích, kdy se k absolutnímu členu postupně přidává taková proměnná, která: má největší příspěvek k vysvětlení variability závisle proměnné; je zároveň statisticky významná. Problémy způsobuje multikolinearita vysvětlujících proměnných (viz další přednášky). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 125 / 152

Metody přidávání nezávisle proměnných Sestupný výběr (backward selection) Začíná se s modelem, ve kterém jsou zařazeny všechny potenciální vysvětlující proměnné. Následně se model redukuje o ty vysvětlující proměnné, které: nejméně přispívají k vysvětlení variability závisle proměnné; jsou statisticky nevýznamné. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 126 / 152

Metody přidávání nezávisle proměnných Kroková regrese (stepwise regression) Kombinace dvou předchozích metod. Metoda reaguje na skutečnost, že v určitém kroku může klesnout vliv některé vysvětlující proměnné, která již byla do modelu zařazena a taková proměnná se musí z modelu vyřadit. Postup končí, pokud do modelu nelze žádnou další proměnnou zařadit ani z modelu žádnou vyloučit. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 127 / 152

Volba funkční formy Rozeznáváme modely lineární v parametrech; modely nelineární v parametrech, avšak transformovatelné na modely lineární v parametrech (linearizovatelné modely); modely nelineární v parametrech. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 128 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Důležitá specifikační kritéria 1. Teorie: Je navrhovaná proměnná relevantní? 2. Statistický test: Je parametr navrhované proměnné statisticky významný v očekávaném směru? 3. Korigovaný koeficient determinace: Zvýší se zařazením navrhované proměnné hodnota R 2? 4. Vychýlení: Změní se signifikantně ostatní parametry modelu po přidání navrhované proměnné do modelu? David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 129 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Další specifikační kritéria: Testy specifikace: RESET test, testy založené na Lagrangeových multiplikátorech. Informační kritéria: Akaikeho informační kritérium (AIC); Schwarzovo (Bayesovské) informační kritérium (SIC, BIC); Hannan-Quinnovo informační kritérium (HQC). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 130 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Pokud do funkčního vztahu dosadíme za parametry β 0, β 1,..., β k jejich odhady ˆβ 0, ˆβ 1,..., ˆβ k, dostaneme odhad Ŷ získaný na základě modelu Ŷ = f (X 1,..., X k, ˆβ 0, ˆβ 1,..., ˆβ k ) Y = f (X 1,..., X k, β 0, β 1,..., β k ) + ɛ. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 131 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Teoretický regresní model (např. lineární funkční tvar): Y i = β 0 + β 1 X i + ɛ i, i = 1,..., n. Tento model můžeme odhadnout jako Ŷ i = ˆβ 0 + ˆβ 1 X i, i = 1,..., n. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 132 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných RESET test Test chyb specifikace modelu založený na přidání Ŷ 2 a Ŷ 3 do původního modelu. Pomocný model Y i = β 0 + β 1 X 1,i + + β k X k,i + ɛ i Y i = β 0 + β 1 X 1,i + + β k X k,i + β k+1,i Ŷ i 2 + βk+2,i Ŷ i 3 + νi David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 133 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných RESET test Hypotézy: H 0 : model je správně specifikován, H 1 : model není správně specifikován. Testovací statistika: R1 2 R2 0 2, 1 R1 2 n k 3 kde R0 2 je koeficient determinace původního modelu a R2 1 determinace pomocného modelu je koeficient Y i = β 0 + β 1 X 1,i + + β k X k,i + β k+1,i Ŷ i 2 + βk+2,i Ŷ i 3 + νi. Kritický obor: W = F 1 α (2, n k 3), ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 134 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Test založený na Lagrangeových multiplikátorech založen na pomocném regresním modelu, kde vysvětlovanou proměnnou jsou rezidua původního modelu a vysvětlujícími proměnnými vysvětlující proměnné původního modelu plus: a) čtverce vysvětlujících proměnných; b) logaritmy vysvětlujících proměnných. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 135 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Test založený na Lagrangeových multiplikátorech Původní model: Y i = β 0 + β 1 X i,1 + + β k X i,k + ɛ i, i = 1,..., n Odhadneme parametry, pomocí nich Ŷi a nakonec e i = Y i Ŷi. Pomocný model: a) e i = β 0 + β 1 X i,1 + + β k X i,k + β k+1 X 2 i,1 + + β k+k X 2 i,k b) e i = β 0 + β 1 X i,1 + + β k X i,k + β k+1 ln(x i,1 ) + + β k+k ln(x i,k ) Vypočteme koeficient determinace R 2. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 136 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Test založený na Lagrangeových multiplikátorech Hypotézy: H 0 : model je správně specifikován, H 1 : model není správně specifikován. Testovací statistika: Kritický obor: nr 2 W = χ 2 1 α(k), ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 137 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Test založený na Lagrangeových multiplikátorech jedna proměnná Původní model: Y i = β 0 + β 1 X i + ɛ i, i = 1,..., n Odhadneme parametry, pomocí nich Ŷ i a nakonec e i = Y i Ŷ i. Pomocný model: e i = β 0 + β 1 X i + β 2 X 2 i + β 3 X 3 i, i = 1,..., n Vypočteme koeficient determinace R 2. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 138 / 152

Klasický předpoklad I. Výběr vysvětlujících proměnných Test založený na Lagrangeových multiplikátorech jedna proměnná Hypotézy: H 0 : model je správně specifikován, H 1 : model není správně specifikován. Testovací statistika: Kritický obor: nr 2 W = χ 2 1 α(2), ) David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 139 / 152

Klasický předpoklad I. Analýza dat naslepo Pro 4 různé sady dat platí: Popisné charakteristiky Proměnná n Průměr Sm. odch. x 11 9,00 3,32 y 11 7,50 2,03 Výsledky lineární regrese závislost y na x ˆβ i SE( ˆβ i ) T p-hodnota Konstanta 3,00 1,125 2,67 0,026 x 0,50 0,118 4,24 0,002 Rovnice regresní přímky: y = 3,00 + 5,00x Koeficient determinace R 2 : 0,67 Korelační koeficient: 0,82 Směrodatná odchylka reziduí: 1,24 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 140 / 152

Klasický předpoklad I. Analýza dat naslepo y1 versus x1 (with least squares fit) y2 versus x2 (with least squares fit) 11 Y = 3.00 + 0.500X 11 Y = 3.00 + 0.500X 10 10 9 9 8 8 y1 y2 7 7 6 6 5 5 4 4 4 6 8 10 12 14 3 4 6 8 10 12 14 x1 x2 y3 versus x3 (with least squares fit) y4 versus x4 (with least squares fit) 13 Y = 3.00 + 0.500X 14 Y = 3.00 + 0.500X 12 11 12 10 9 10 y3 y4 8 8 7 6 6 5 4 4 6 8 10 12 14 x3 4 6 8 10 12 14 16 18 20 x4 David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 141 / 152

Klasický předpoklad II. Chybový člen má nulovou střední hodnotu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 142 / 152

Klasický předpoklad III. Všechny vysvětlující proměnné jsou nekorelované s chybovým členem. Jestliže jsou chybový člen a vysvětlující proměnné korelovány, pak metoda nejmenších čtverců chybně přisoudí vysvětlujícím proměnným část variability ve vysvětlované proměnné, která však pochází z chybového členu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 143 / 152

Klasický předpoklad IV. Pozorování chybového členu nejsou korelována se sebou samými, tj. nedochází k významné autokorelaci. Pokud existuje korelace mezi pozorováními chybového členu, pak dochází ke zvýšení variability odhadu parametrů modelu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 144 / 152

Klasický předpoklad V. Chybový člen má konstantní rozptyl, tj. je homoskedastický. Heteroskedasticita znamená, že se rozptyl (variabilita) rozdělení chybového členu v jednotlivých úsecích pozorování mění. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 145 / 152

Klasický předpoklad V. 400 350 300 250 Y 200 150 100 50 0 0 5 10 15 X David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 146 / 152

Klasický předpoklad V. 1600 1400 1200 1000 800 Y t 600 400 200 0 200 0 5 10 15 20 25 30 35 40 45 50 t David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 147 / 152

Klasický předpoklad VI. Žádná vysvětlující proměnná není perfektní lineární kombinací jiné vysvětlující proměnné neexistuje perfektní (multi)kolinearita. Perfektní kolinearita: stejné proměnné; jedna proměnná je lineární transformací jiné proměnné. Problém činí i neperfektní kolinearita, případně pokud jedna z proměnných má nulovou variabilitu. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 148 / 152

Klasický předpoklad VII. Chybový člen je normálně rozdělen. Důvody přidání tohoto předpokladu: 1 Chybový člen zahrnuje mnoho minoritních vlivů (opomenuté proměnné) nebo chyb v případě rostoucího počtu těchto minoritních vlivů nebo chyb má rozdělení chybového členu tendenci konvergovat k normálnímu rozdělení důvodem je centrální limitní věta. 2 Jeho hlavní využití je při testování hypotéz, nebot bez splnění tohoto předpokladu bude většina testů (např. t-test, F-test) neplatná. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 149 / 152

Gaussova-Markovova věta Necht jsou splněny klasické předpoklady I. až VI. Pak odhad parametru ˆβ i daný metodou nejmenších čtverců má minimální rozptyl mezi všemi lineárními nevychýlenými odhady parametru ˆβ i, i = 0, 1, 2,..., k. David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 150 / 152

Gaussova-Markovova věta Gaussova-Markovova věta je lépe zapamatovatelná jako BLUE (= Best Linear Unbiased Estimator). Pokud přidáme předpoklad VII., pak lze ukázat, že odhad parametru daný metodou nejmenších čtverců je tzv. BUE (= Best Unbiased Estimator), tj. nejlepší (maximálně vydatný) nevychýlený odhad parametrů ze všech možných odhadů (tj. nejen ze všech lineárních odhadů). David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 151 / 152

Příklad data PCA.sta David Hampel (ÚSOV MENDELU) Základy lineární regrese 5. 7. 8. 2015 152 / 152