1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Podobné dokumenty
Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Regresní analýza 1. Regresní analýza

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

odpovídá jedna a jen jedna hodnota jiných

Bodové a intervalové odhady parametrů v regresním modelu

LINEÁRNÍ REGRESE. Lineární regresní model

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Statistická analýza jednorozměrných dat

Statistika (KMI/PSTAT)

AVDAT Nelineární regresní model

Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

Korelační a regresní analýza

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

INDUKTIVNÍ STATISTIKA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

KGG/STG Statistika pro geografy

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhad parametrů N(µ, σ 2 )

Inovace bakalářského studijního oboru Aplikovaná chemie

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Měření závislosti statistických dat

AVDAT Geometrie metody nejmenších čtverců

Časové řady, typy trendových funkcí a odhady trendů

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

10. Předpovídání - aplikace regresní úlohy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

AVDAT Klasický lineární model, metoda nejmenších

Časové řady, typy trendových funkcí a odhady trendů

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

5EN306 Aplikované kvantitativní metody I

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Interpolace, aproximace

Tomáš Karel LS 2012/2013

Bodové a intervalové odhady parametrů v regresním modelu

4. Aplikace matematiky v ekonomii

4ST201 STATISTIKA CVIČENÍ Č. 10

MATEMATIKA III V PŘÍKLADECH

KGG/STG Statistika pro geografy

Odhad parametrů N(µ, σ 2 )

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Funkce a lineární funkce pro studijní obory

6. Lineární regresní modely

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Stavový model a Kalmanův filtr

Ekonometrie. Jiří Neubauer

AVDAT Výběr regresorů v mnohorozměrné regresi

=10 =80 - =

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

4EK211 Základy ekonometrie

Úvod do analýzy časových řad

Kanonická korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statistika II. Jiří Neubauer

Lineární regrese. Komentované řešení pomocí MS Excel

Funkce pro studijní obory

Statistika pro geografy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Téma 22. Ondřej Nývlt

Regresní analýza. Eva Jarošová

Charakteristika datového souboru

Simulace. Simulace dat. Parametry

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

6. Lineární regresní modely

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

PRAVDĚPODOBNOST A STATISTIKA

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

STATISTICKÉ ODHADY Odhady populačních charakteristik

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Jednofaktorová analýza rozptylu

4EK211 Základy ekonometrie

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Statistická analýza jednorozměrných dat

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Normální (Gaussovo) rozdělení

8 Coxův model proporcionálních rizik I

4EK211 Základy ekonometrie

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Transkript:

Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou a závislosti příčinnou čili kauzální. V případě kauzální závislosti lze odlišit závislost jednostrannou a závislost oboustrannou. Dle složitosti můžeme rozlišovat jednodušší formy příčinné, tedy kauzální závislosti a složitější formy kauzální závislosti. Z hlediska statistická teorie pak rozlišujeme dva typy závislostí. Prvním z nich je tzv. statistická závislost. Tu lze popsat následujícím způsobem.sledujemeli statistické znaky y, x 1, x 2,, x p a mění-li se určitým způsobem podmíněné rozdělení znaku y při změnách x 1, x 2,, x p, pak mluvíme o statistické závislosti znaku y na x 1, x 2,, x p. Speciálním typem této statistické závislosti je tzv. korelační závislost, při které se mění podmíněné střední hodnoty znaku y. Cíle regresní a korelační analýzy Cíle regresní a korelační analýzy lze spatřovat ve dvou hlavních bodech: ve vystižení směru korelační závislosti. Tím odpovídáme na otázku, jak se změní závisle proměnná, jestliže změníme nezávisle proměnnou o jednotku. Směr korelační závislosti vyjadřujeme pomocí regresní čáry. Ta je spojnicí vyrovnaných hodnot závisle proměnné, odpovídajícím hodnotám nezávisle proměnné. Statistické metody, které řeší tento úkol, shrnujeme pod společný název regresní analýza. v posouzení toho, do jaké míry jsou pozorované hodnoty v blízkém okolí regresní čáry, či zda se pozorované hodnoty od regresní čáry značně vzdalují. Čím jsou pozorované hodnoty blíže k regresní čáře, tím daná regresní čára poskytuje hodnotnější odhad, a naopak, čím se pozorované hodnoty více odchylují od regresní čáry, tím je mezi proměnnými menší statistická závislost. Odhady pořízené na základě takovéto regresní čáry jsou pak méně hodnotné. Shrneme-li výše uvedené, lze říci, že dalším úkolem korelační a regresní analýzy je posouzení těsnosti korelační závislosti. Podstatou je tedy posouzení variability pozorovaných hodnot kolem regresní čáry. Tento problém řeší korelační analýza. Závisle proměnná nezávisle proměnná Znak y nazýváme vysvětlovanou nebo závisle proměnnou, znaky x 1, x 2,, x p vysvětlujícími nebo nezávisle proměnnými. Prostá lineární regrese Nejjednodušším modelem se kterým se lze v regresní analýze setkat je prostá lineární regrese. Jejím parametrickým vyjádřením je funkce y = α + βx, tedy rovnice přímky. Zabývejme se tímto modelem blíže. 1

Při regresní analýze se snažíme najít neznámé parametry α a β tak, aby výsledný (odhadnutý) model ŷ = a + bx co nejlépe vystihoval námi pozorované data. K odhadu neznámých parametrů, tzv. regresních koeficientů zpravidla používáme metodu nejmenších čtverců. Podstatou této metody je minimalizace součtu čtverců reziduí, tedy: S = (y i ŷ i ) 2 min. (1) Předpoklady modelu Střední hodnota reziduí je nulová. Nebo-li E(ɛ i ) = 0 Rozptyl reziduí je konstantní pro všechny pozorování, tedy V ar(ɛ i ) = σ 2 Rezidua sledují normální rozdělení ɛ i N(0, σ 2 ) Jednotlivé pozorování závislé proměnné y i jsou navzájem nezávislé. V důsledku toho pak i jednotlivé ɛ i Jednotlivé úrovně -hodnoty regresorů jsou pevné, pokud jsou náhodné, pak jsou navzájem nezávislé. Funkce je lineární kombinací regresních koeficientů. Odhady a a b neznámých regresních koeficientů α a β jsou tedy určeny z podmínky: S = (y i ŷ i ) 2 min, (2) kde po dosazení za ŷ i získáme v případě fitování modelu prosté lineární regrese: (y i a bx i ) 2 min. (3) Nalézt minimum této kvadratické funkce znamená položit parciální derivace podle a a b nule a řešit vzniklou soustavu rovnic. Po několika úpravách získáme tzv. normální rovnice: na + b n x i = n y i a n x i + b n x2 i = n x (4) iy i. Řešením soustavy rovnic lze získat vzorce pro výpočet regresních koeficientů: n a = x n iy i x i n y n i x2 i ( n x)2 n n (5) x2 i a b = n n x iy i n x n i y i n n x2 i ( n x. (6) i) 2 Interpretace regresního koeficientu plyne především z toho, že odhadnutý regresní koeficient b je formálně směrnicí regresní přímky. Udává tedy, jak velká bude změna závislé y, změní-li se nezávisle proměnná x o jednotku. Kladná hodnota regresního koeficentu (b > 0) znamená, že s růstem nezávisle proměnné poroste i hodnota závisle proměnné. Záporná hodnota pak vyjadřuje pokles závisle proměnné při růstu hodnot nezávisle proměnné. 2

Volba regresní funkce Při volbě regresní funkce je nutné znát její základní vlastnosti, tj. znát jednotlivé funkce, jejich analytické vyjádření, jejich průběh, definiční obor a obor hodnot. V prvé řadě má regresní model co nejlépe zobrazit reálné vztahy mezi jevy a odrážet je v jejich podstatných rysech. Z tohoto důvodu je třeba vycházet z posouzení věcné podstaty zkoumaných jevů a jejich souvislostí. V mnoha případech však není možno volit regresní funkci apriorně. Pak volíme regresní funkci na základě posouzení závislosti v pozorovaných datech. Tento přístup však nemusí vést k nalezení regresní funkce (problém malého počtu pozorování) vhodné pro popis závislosti v základním souboru. Pro empirické posouzení závislosti je možno použít bodový diagram nebo čáru podmíněných průměrů. Obvykle se však postupuje takto: Vymezíme množinu regresních funkcí - pokud možno jednoduchých Určíme odhady jednotlivých regresních parametrů pro jednotlivé typy regresních funkcí Na základě různých kritérií zkoumáme která z regresních funkcí nejlépe vyhovuje empirickým datům. Regresní modely Dle tvaru regresní funkce lze rozlišovat různé typy regresních modelů: Modely lineární z hlediska parametrů mají regresní funkci tvaru: ŷ = β 0 + β 1 f 1 + β 2 f 2 + + β p f p, (7) kde regersory f jsou libovolné známé funkce vysvětlujících proměnných. Speciálním případem jsou modely typu: ŷ = β 0 + β 1 x 1 + β 2 x 2 + + β p x p, (8) kde regresory jsou přímo vysvětlující proměnné, tj. modely lineární z hlediska parametrů i z hlediska vysvětlujících proměnných. Příkladem můžou být tyto modely: ŷ = β 0 + β 1 x (9) nebo hyperbolický regresní model ŷ = β 0 + β 1 1 x (10) ŷ = β 0 + β 1 log 10 x (11) ŷ = β 0 + β 1 log e x (12) ŷ = β 0 + β 1 x + β 2 x 2 (13) a samozřejmě mnohé další... 3

Modely nelineární jak v parametrech, tak vzhledem k vysvětlujícím proměnným, které se však transformací dají převést na lineární tvar z hlediska regresních parametrů. Příkladem může být mocninná funkce ŷ = αx β (14) nebo exponenciální funkce ŷ = αβ x (15) Nelineární modely které se nedají jednoduše transformovat na lineární tvar např: ŷ = αβ x + γ (16) Otázka vhodnosti modelu Jedním ze základních kritérií pro posouzení kvality regresní funkce je tzv. součet čtverců reziduí, definovaný jako S = (y i ŷ i ) 2 (17) Na základě tohoto kritéria dáváme přednost tomu regresnímu modelu pro nějž nabývá tato statistika nižší hodnoty. V případě, že porovnáváme regresní modely s různým počtem regresních parametrů, musíme si uvědomit, že u regresní funkce s větším počtem parametrů bude reziduální součet čtverců nižší než u regresní funkce s menším počtem regresních parametrů. Z tohoto důvodu využíváme pro srovnání tzv. reziduální rozptyl definovaný jako s 2 e = S (18) n p Index determinace Další velice důležitou charakteristikou vhodnosti regresní funkce je tzv. index determinace. Jeho konstrukce vychází z rozkladu součtu čtvercových odchylek hodnot vysvětlované proměnné od jejich aritmetického průměru (y i ȳ) 2 (19) na dvě složky. A to na součet čtverců reziduí: (y i ŷ i ) 2 (20) a na součet čtvercových odchylek teoretických hodnot od aritmetického průměru (ŷ i ȳ) 2 (21) 4

Součet čtvercových odchylek teoretických hodnot od průměru představuje tu část součtu čtverců, kterou je možno vysvětlit zvolenou regresní funkcí. Podíl n I 2 = (ŷ i ȳ) 2 n (y (22) i ȳ) 2 se nazývá index determinace. Tato míra nabývá hodnot z uzavřeného intervalu 0, 1. Index determinace nám udává z kolika procent variabilita nezávisle proměnné vysvětluje variabilitu závisle proměnné. Korelační koeficient Pro posuzování vhodnosti regresní funkce a těsnosti závislosti vysvětlované proměnné y na uvažovaných vysvětlujících proměnných se používá také druhá odmocnina indexu determinace. Ta se nazývá index korelace (koeficient korelace). V případě prosté lineární regrese jej lze definovat například takto: r yx = cov(x, y) σ x σ y (23) Tato statistika vyjadřuje stupeň lineární statistické závislosti. Symbol cov(x, y) v čitateli představuje kovarianci proměnných x a y. Ve jmenovateli pak vystupuje součin směrodatných odchylek nezávisle a závisle proměnné. 5