Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.



Podobné dokumenty
Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní a korelační analýza

Bodové a intervalové odhady parametrů v regresním modelu

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

MATEMATIKA I VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STAVEBNÍ JIŘÍ NOVOTNÝ ZÁKLADY LINEÁRNÍ ALGEBRY

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

Lineární Regrese Hašovací Funkce

4 DVOJMATICOVÉ HRY. Strategie Stiskni páku Sed u koryta. Stiskni páku (8, 2) (5, 3) Sed u koryta (10, 2) (0, 0)

4 Vyhodnocení naměřených funkčních závislostí

Matematický model kamery v afinním prostoru

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 16. ZÁKLADY LOGICKÉHO ŘÍZENÍ

Ohmův zákon pro uzavřený obvod

1.7. Mechanické kmitání

Daniel Velek Optimalizace 2003/2004 IS1 KI/0033 LS PRAKTICKÝ PŘÍKLAD NA MINIMALIZACI NÁKLADŮ PŘI VÝROBĚ

c sin Příklad 2 : v trojúhelníku ABC platí : a = 11,6 dm, c = 9 dm, α = Vypočtěte stranu b a zbývající úhly.

3. Polynomy Verze 338.

Marta Vomlelová

Jednoduchý fuzzy regresní model. A simplefuzzyregressionmodel

na tyč působit moment síly M, určený ze vztahu (9). Periodu kmitu T tohoto kyvadla lze určit ze vztahu:

Příprava na 1. čtvrtletní písemku pro třídu 1EB

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

METODIKA PRO NÁVRH TEPELNÉHO ČERPADLA SYSTÉMU VZDUCH-VODA

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

Příklad 1.3: Mocnina matice

Osvětlovací modely v počítačové grafice

11 Soustavy rovnic a nerovnic, Determinanty a Matice

M - Příprava na čtvrtletní písemnou práci

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Slovní úlohy II

Gymnázium Christiana Dopplera, Zborovská 45, Praha 5. ROČNÍKOVÁ PRÁCE Teoretické řešení střech

Metodický list pro první soustředění kombinovaného studia. předmětu MATEMATIKA A

GEOMETRICKÁ TĚLESA. Mnohostěny

Posouzení stávající soustavy vytápění. Posouzení stávající soustavy vytápění. Semináře JOULE 2012 Ing. Vladimír Galad

SBÍRKA PŘÍKLADŮ PRO OPAKOVÁNÍ NA PŘIJÍMACÍ ZKOUŠKY 2

Žáci mají k dispozici pracovní list. Formou kolektivní diskuze a výkladu si osvojí grafickou minimalizaci zápisu logické funkce

6 Extrémy funkcí dvou proměnných

Úlohy domácího kola kategorie C

5. cvičení 4ST201_řešení

1.2.5 Reálná čísla I. Předpoklady:

Bodové a intervalové odhady parametrů v regresním modelu

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

9. února algoritmech k otáčení nedochází). Výsledek potom vstupuje do druhé fáze, ve které se určuje, jestli se

6. Matice. Algebraické vlastnosti

Slovní úlohy vedoucí na lineární rovnice I

Exponenciála matice a její užití. fundamentálních matic. Užití mocninných řad pro rovnice druhého řádu

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

Metoda konečných prvků. 6. přednáška Tělesové prvky - úvod (lineární trojúhelník a lineární čtyřstěn) Martin Vrbka, Michal Vaverka

Aritmetika s didaktikou II.

1.3 Druhy a metody měření

Projekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci

10 je 0,1; nebo taky, že 256

Makroekonomie I. Přednáška 2. Ekonomický růst. Osnova přednášky: Shrnutí výpočtu výdajové metody HDP. Presentace výpočtu přidané hodnoty na příkladě

Matematika pro chemické inženýry. Drahoslava Janovská

6. přednáška z předmětu GIS1 Souřadnicové systémy a transformace mezi nimi

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

Měření základních vlastností OZ

Národní informační středisko pro podporu kvality Tůmová

I. Objemové tíhy, vlastní tíha a užitná zatížení pozemních staveb

Analýza oběžného kola

Stanovení optimálních teplot výpalu vápenců z různých lokalit a jejich souvislostí s fyzikálními vlastnostmi vápenců

21 SROVNÁVACÍ LCA ANALÝZA KLASICKÝCH ŽÁROVEK A KOMPAKTNÍCH ZÁŘIVEK

Řešení: Dejme tomu, že pan Alois to vezme popořadě od jara do zimy. Pro výběr fotky z jara má Alois dvanáct možností. Tady není co počítat.

Výukový materiál zpracován v rámci projektu EU peníze školám

Zobrazení v rovině je předpis, který každému bodu X roviny připisuje právě jeden bod X roviny. Bod X se nazývá vzor, bod X se nazývá obraz.

Malé vodní elektrárny

Vyměnit olej? Až příští rok!

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

modul Jízdy a Kniha jízd uživatelská příručka

2. SÉRIE: SOUSTAVY LINEÁRNÍCH ROVNIC, METODY E ENÍ. lineárních rovnic (prove te zkou²ku dosazením):

ÚLOHY SE SPORTOVNÍ TÉMATIKOU PRO MATEMATICKÉ TALENTY, vč. metodického listu. doc. PhDr. Marta Volfová, CSc.

TECHNICKÁ UNIVERZITA V LIBERCI

Obnovitelné zdroje energie OZE OZE ČR A VE SVĚTĚ, DEFINICE, POTENCIÁL. Doc. Ing. Tomáš Dlouhý CSc.

Difrakce na mřížce. Úkoly měření: Použité přístroje a pomůcky: Základní pojmy, teoretický úvod: Úloha č. 7

1.2.7 Druhá odmocnina

Matematika 3. RNDr. Břetislav Fajmon, Ph.D. Mgr. Irena Růžičková ÚSTAV MATEMATIKY

Tlačítkový spínač s regulací svitu pro LED pásky TOL-02

Podrobný postup pro doplnění Žádosti o dotaci prostřednictvím Portálu Farmáře. 1. kolo příjmu žádostí Programu rozvoje venkova ( )

1. LINEÁRNÍ APLIKACE OPERAČNÍCH ZESILOVAČŮ

Aktivity s GPS 3. Měření některých fyzikálních veličin

FAKULTA INFORMATIKY A MANAGEMENTU UNIVERZITA HRADEC KRÁLOVÉ SEMESTRÁLNÍ PRÁCE. Modely operačního výzkumu 1. Studijní obor:

Jaderná energie. Obrázek atomů železa pomocí řádkovacího tunelového mikroskopu

Večerní kurzy matematiky Letní studentská konference Tudy Cesta Nevede

Solární kolektory pro rodinný dům: Stačí 1 metr čtvereční na osobu

2.1 Pokyny k otevřeným úlohám. 2.2 Pokyny k uzavřeným úlohám TESTOVÝ SEŠIT NEOTVÍREJTE, POČKEJTE NA POKYN!

Investice a akvizice

SRF08 ultrazvukový dálkoměr

Matice. Přednáška MATEMATIKA č. 2. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Poměry a úměrnosti I

1.4.1 Výroky. Předpoklady: Výrok je sdělení, u něhož má smysl otázka, zda je či není pravdivé

VÝVOZNÍ SUBVENCE PRO MLÉKO A MLÉČNÉ VÝROBKY

STANOVISKO č. STAN/1/2006 ze dne

Kočí, R.: Účelové pozemní komunikace a jejich právní ochrana Leges Praha, 2011

Přílohy. Spotřeba elektřiny. Model závislosti spotřeby elektřiny

Databázové a informační systémy

5 Výměník tepla. 5.1 Cíle měření

Výchovné a vzdělávací strategie pro rozvoj klíčových kompetencí žáků

Obytná budova musí z hlediska elektrických rozvodů splňovat požadavky na:

PRAKTIKUM... Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Odevzdal dne: Seznam použité literatury 0 1. Celkem max.

Transkript:

Statistika II Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz

Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu) této závislosti pomocí vhodné funkce vystihnout pomocí regresní funkce průběh (trend) závislosti mezi X a Y na základě znalosti dvojic empirických hodnot [x i, y i], kde i = 1, 2,..., n.

Regresní přímka Princip regresní analýzy nejdříve vysvětlíme na jednoduchém modelu dvou náhodných veličin X a Y, kde Y bude vysvětlovaná proměnná a X bude vysvětlující proměnná (regresor). Budeme předpokládat, že mezi vysvětlovanou proměnnou Y a vysvětlující proměnnou X platí přibližně lineární vztah. Měření nebo pozorování veličiny Y může být zatíženo náhodnou chybou e. Y = β 1 + β 2X + e, kde β 1, β 2 jsou neznámé parametry (neznámé reálné konstanty), Y a e jsou náhodné veličiny a X je daná reálná proměnná. Dále předpokládáme, že při hodnotách x 1, x 2,..., x n proměnné X pozorujeme hodnoty y 1,..., y n proměnné Y zatížené chybami e 1,..., e n. Pozorování vyhovují modelu y i = β 1 + β 2x i + e i, i = 1,..., n.

Regresní přímka O chybách e 1,..., e n předpokládáme, že jsou to nezávislé náhodné veličiny, že jsou nesystematické, tj. střední hodnota Ee i = 0, a homogenní, tj. že mají stejný rozptyl De i = σ 2, i = 1,..., n. Cílem je najít odhad parametrů β 1, β 2 a σ 2. Použijeme k tomu metodu nejmenších čtverců. Označíme S 2 (β 1, β 2) = ei 2 = (y i (β 1 + β 2x i)) 2 součet čtverců náhodných chyb e i a odhady β 1, β 2 parametrů β 1, β 2 stanovíme tak, aby součet čtverců chyb S 2 (β 1, β 2) nabyl minimální možné hodnoty.

Regresní přímka Z matematiky je známo, že nutnou podmínkou pro existenci extrému funkce dvou a více proměnných je nulovost prvních parciálních derivací, tj. v našem případě S 2 (β 1, β 2) = S 2 (β 1, β 2) = 0, β 1 β 2 podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkce S(β 1, β 2) je ryze konvexní. Dostáváme tedy S 2 (β 1, β 2) β 1 = 2 S 2 (β 1, β 2) β 2 = 2 (y i β 1 β 2x i)( 1) = 0, (y i β 1 β 2x i)( x i) = 0. odkud získáme tzv. soustavu normálních rovnic β 1n + β 2 x i = y i, β 1 x i + β 2 x 2 i = x iy i.

Regresní přímka Obrázek: přímka

Regresní přímka Vyřešíme-li tuto soustavu (např. Cramerovým pravidlem), obdržíme odhady parametrů n n β 1 = yi x i 2 n n xi xiyi n n x i 2 ( n ) 2, β 2 = n n xiyi n n xi yi xi n n x i 2 ( n ) 2. xi Tyto odhady lze také vyjádřit ve tvaru β 1 = y β 2x = y sxy s 2 x x, β2 = sxy, sx 2 kde x = 1 n n xi a y = 1 n n yi jsou výběrové průměry, sx 2 = 1 n n 1 (xi x)2 je výběrový rozptyl a s xy = 1 n n 1 (xi x)(yi y) je výběrová kovariance.

Regresní přímka Přímku o rovnici Ŷ = β 1 + β 2X nazýváme regresní přímkou, β 1, β2 jsou tzv. regresní koeficienty. Vypočtené regresní koeficienty β 1, β2 jsou nevychýlenými odhady neznámých parametrů β 1, β 2. Dále hodnota ŷ i = β 1 + β 2x i je predikovaná hodnota y v bodě x i a veličiny ê i = y i ŷ i = y i β 1 β 2x i nazýváme rezidua. Dále platí, že minimální hodnota součtu čtverců S 2 (β 1, β 2) je rovna S e = S 2 ( β1, β2 ) = êi 2 = (y i ŷ i) 2 = y 2 i β 1 y i β 2 x iy i. S e nazýváme reziduální součet čtverců. Je možné ukázat (viz Anděl (2003)), že veličina s 2 = 1 n 2 Se je nevychýleným odhadem rozptylu σ2, a tedy platí E(s 2 ) = σ 2.

Regresní přímka příklad Následující tabulka udává informaci o teplotě (ve stupních Celsia) v jednom městě a množství zmrzliny (v kilogramech) prodaných v osmi náhodně vybraných cukrárnách. teplota 34 30 25 32 37 39 31 26 zmrzlina 94 79 56 90 105 126 72 53 Vysvětlovanou proměnnou je v tomto případě množství zmrzliny, vysvětlující proměnnou potom teplota ve městě. Metodou nejmenších čtverců odhadneme parametry regresní přímky ŷ = 71,789 + 4,918x.

Regresní přímka příklad Obrázek: Regresní přímka závislost množství prodané zmrzliny na teplotě

Zobecníme předchozí výsledky a budeme předpokládat, že je potřeba modelovat nějakou sledovanou (hůře dostupnou či nesnadno měřitelnou) náhodnou veličinu Y (tzv. vysvětlovaná veličina nebo odezva) pomocí jiných snáze dostupných veličin X 1, X 2,..., X k (nazývaných vysvětlující proměnné nebo regresory). Vyjdeme ze situace, kdy příslušná statistická data obsahují n nezávislých pozorování vysvětlované proměnné Y a odpovídajících n pozorování každého z regresorů X 1, X 2,..., X k. Budeme předpokládat, že i-té pozorování vysvětlované proměnné Y lze modelovat rovnicí: kde y i = β 1x i1 + β 2x i2 + + β k x ik + e i, (1) 1. y i je i-té pozorování Y, i = 1,..., n, 2. x ij je i-té pozorování regresoru X j, i = 1,..., n, j = 1,..., k, 3. β j, j = 1,..., k, jsou neznámé parametry, 4. e i, i = 1,..., n, jsou neznámé náhodné chyby, které vznikají při pozorování vysvětlované proměnné Y a které nemůžeme přímo pozorovat ani měřit.

Přitom dále předpokládáme, že x ij jsou pevně dané známé reálné hodnoty a veličiny Y i a e i jsou náhodného charakteru (náhodné veličiny). Na jejich pravděpodobnostní rozdělení klademe následující předpoklady: (P1) Střední hodnota Ee i = 0, i = 1,..., n, tj. náhodné chyby jsou nesystematické. (P2) Rozptyl De i = σ 2, i = 1,..., n, tj. náhodné chyby jsou homogenní se stejným neznámým rozptylem σ 2. (P3) Kovariance C(e i, e l ) = 0, i l, nekorelované. i, l = 1,..., n, tj. náhodné chyby jsou Model daný rovnicí (1) spolu s předpoklady (P1), (P2), (P3) se nazývá lineární regresní model (LRM) 1. Funkci, která popisuje závislost vysvětlované proměnné Y na regresorech X 1, X 2,..., X k pak nazýváme regresní funkcí. 1 Často se v lineárním regresním modelu předpokládá, že první regresor je konstanta, potom pozorované hodnoty x i1 = 1, i = 1,..., n a model má tvar y i = β 1 + β 2x i2 + + β k x ik + e i.

Odhad parametrů v lineárním regresním modelu (1) provedeme opět metodou nejmenších čtverců. Model nejdříve zapíšeme v maticovém tvaru. Označme: y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2, β =. x y n e n1 x nk n β k. Pak model (1) lze vyjádřit jednoduchým zápisem Y = Xβ + e. Odhad neznámých parametrů pak stanovíme řešením soustavy lineárních rovnic X Xβ = X Y tzv. normální rovnice.

Jejich řešení snadno nalezneme za předpokladu, že matice X X je regulární a tedy existuje inverzní matice (X X) 1. Za tohoto předpokladu říkáme, že model je plné hodnosti. V modelu plné hodnosti lze řešení normálních rovnic zapsat ve tvaru β = ( X X ) 1 X Y. Pro reziduální součet čtverců zapsaný v maticovém tvaru pak dostaneme vyjádření S e = (Y X β) (Y X β) = Y Y β X Y. Dále budeme pracovat jenom s modely plné hodnosti.

regresní parabola Uvedeme nyní dva příklady lineárních regresních modelů: regresní paraboly a modelu se dvěma lineárními regresory. Nejprve budeme uvažovat model, kdy vysvětlovaná proměnná Y je kvadratickou funkcí vysvětlující proměnné X, tvaru: y i = β 1 + β 2x i + β 3xi 2 + e i, i = 1,..., n. Zřejmě jde o speciální případ LRM (lineárního vzhledem k neznámým parametrům β 1, β 2, β 3). V maticovém zápisu tohoto modelu je: 1 x 1 x 2 1 1 x 2 x2 2 n n n X =..., xi x i 2 X X = n n xi x 2 n i x i 3 n 1 x n xn 2 x i 2 n x i 3, n x i 4 n X yi Y = n xiy i. n x i 2 y i

regresní parabola Za předpokladu, že model je plné hodnosti, lze odhad β vektoru β získat řešením rovnic X Xβ = X Y ve tvaru β = (X X) 1 X Y. Potom lze reziduální součet čtverců S e vyjádřit ve tvaru S e = y i β 1 y i β 2 x iy i β 3 x 2 i y i a odhad rozptylu σ 2 je s 2 = S e/(n 3).

regresní parabola Příklad. U automobilu Trabant se měřila spotřeba paliva v litrech na 100 km (Y ) v závislosti na jeho rychlosti (X ). Rychlost 40 50 60 70 80 90 100 Spotřeba 6,1 5,8 6,0 6,5 6,8 8,1 10,0 Odhadnutá parabolická regresní funkce má tvar ŷ = 11,39386 0,20726x + 0,001917x 2.

regresní parabola Obrázek: závislost spotřeby paliva na rychlosti

dva lineární regresory Předpokládejme, že vysvětlovaná proměnná Y může záviset na dvou regresorech X a Z (používáme označení X místo X 1 a Z místo X 2, které je v aplikacích tohoto typu časté). K dispozici je n nezávislých pozorování veličiny Y při daných n hodnotách veličin X a Z. Vyjdeme z modelu y i = β 1 + β 2x i + β 3z i + e i, i = 1,..., n, který je speciálním případem obecného lineárního regresního modelu Y = Xβ + e.

dva lineární regresory Matice v modelu mají tvar 1 x 1 z 1 1 x 2 z 2 X =... 1 x n z n, X X = X Y = n xi n zi n n n xi x i 2 n xizi n n n zi xizi z 2 n yi n xiy i n ziyi. i, Pak užitím metody nejmenších čtverců dostaneme odhad β = (X X) 1 X Y.

dva lineární regresory Příklad. Výrobce nealkoholických nápojů má zájem analyzovat potřebný čas k servisu (doplnění lahví případně malý servis zařízení) automatů na výdej lahví s těmito nápoji. Celkovou dobu doplnění lahví je třeba predikovat pomocí dvou dostupných proměnných: počet lahví, které je třeba doplnit do automatu, a vzdálenost, kterou musí údržbář ujít. Vysvětlovanou proměnnou je v tomto případě celkový čas, vysvětlující proměnné jsou počet doplněných lahví a vzdálenost. čas 16,68 11,5 12,03 14,88 13,75 18,11 8 17,83 79,24 21,5 počet lahví 7 3 3 4 6 7 2 7 30 5 vzdálenost 560 220 340 80 150 330 110 210 1460 605 čas 40,33 21 13,5 19,75 24 29 15,35 19 9,5 35,1 počet lahví 16 10 4 6 9 10 6 7 3 17 vzdálenost 688 215 255 462 448 776 200 132 36 770 čas 17,9 52,32 18,75 19,83 10,75 počet lahví 10 26 9 8 4 vzdálenost 140 810 450 635 150

dva lineární regresory Metodou nejmenších čtverců získáme odhad regresní funkce ŷ = 2, 341 + 1,616x + 0,014z. Obrázek: Regrese se dvěma lineárními regresory závislost času potřebného na servis na počtu případů doplňování automatu a vzdálenosti, kterou musí údržbář ujít

Volba regresní funkce Některé typy lineárních regresních funkcí: přímková regrese Y = β 1 + β 2X, hyperbolická regrese Y = β 1 + β 2 X, logaritmická regrese Y = β 1 + β 2 ln X, parabolická regrese Y = β 1 + β 2X + β 3X 2 polynomická regrese Y = β 1 + β 2X + + β px p Některé typy nelineárních regresních funkcí: exponenciální regrese Y = β 1β X 2, mocninná regrese Y = β 1X β 2.