9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese



Podobné dokumenty
REGRESNÍ ANALÝZA. 13. cvičení

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

4ST201 STATISTIKA CVIČENÍ Č. 10

Korelační a regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

Regresní a korelační analýza

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Přednáška č. 11 Analýza rozptylu při dvojném třídění

Statistika (KMI/PSTAT)

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Metody zkoumání závislosti numerických proměnných

LINEÁRNÍ REGRESE. Lineární regresní model

10. Předpovídání - aplikace regresní úlohy

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

odpovídá jedna a jen jedna hodnota jiných

Kanonická korelační analýza

Regresní analýza. Eva Jarošová

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

4EK211 Základy ekonometrie

Lineární regrese. Komentované řešení pomocí MS Excel

Měření závislosti statistických dat

Bodové a intervalové odhady parametrů v regresním modelu

6 LINEÁRNÍ REGRESNÍ MODELY

4EK211 Základy ekonometrie

Analýza závislosti veličin sledovaných v rámci TBD

STATISTIKA (pro navazující magisterské studium)

Doporučené příklady k procvičení k 2. Průběžnému testu

INDUKTIVNÍ STATISTIKA

Regresní analýza 1. Regresní analýza

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Matematika I A ukázkový test 1 pro 2018/2019

4EK211 Základy ekonometrie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

AVDAT Nelineární regresní model

Aplikovaná statistika v R - cvičení 3

6. Lineární regresní modely

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Cvičení 12: Binární logistická regrese

Teorie efektivních trhů (E.Fama (1965))

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

FAKTORY PŮSOBÍCÍ NA CESTUJÍCÍ V DOPRAVNÍM SYSTÉMU FACTORS WHICH HAVE EFFECT ON PASSENGERS IN TRANSPORT SYSTEM

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

MODELOVÁNÍ A SIMULACE

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

6. Lineární regresní modely

=10 =80 - =

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Využití logistické regrese pro hodnocení omaku

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 2

Kalibrace a limity její přesnosti

Statistická analýza jednorozměrných dat

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Inovace bakalářského studijního oboru Aplikovaná chemie

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

EKONOMICKO-MATEMATICKÉ METODY

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

KORELACE. Komentované řešení pomocí programu Statistica

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

Transkript:

cvčící 9. cvčení 4ST01 Obsah: Jednoduchá lneární regrese Vícenásobná lneární regrese Korelační analýza Vysoká škola ekonomcká 1 Jednoduchá lneární regrese Regresní analýza je statstcká metoda pro modelování závslostí mez číselným proměnným. Tuto závslost mez vysvětlovanou proměnnou (Y)a jednou nebo více vysvětlujícím proměnným (X)se snažíme popsat pomocímodelu, obsahujícího determnstckou složku η(vlv vysvětlujících proměnných) a náhodnou složku ε(všechny ostatní vlvy, ať už náhodné, nebo neuvažované) Nejjednodušším regresním modelem závslost vysvětlované proměnné pomocí jedné vysvětlující proměnné je model regresní přímky. Jelkožskutečnéparametry modelu neznáme, odhadujeme je pomocímodelu, který je pro jednotky v našem výběrovém souboru optmální. Za optmálnípovažujeme takovéhodnoty parametru, pro kteréje součet čtvercových odchylek (rezduí) mnmální.

Jednoduchá lneární regrese Příklad 9.1.: Jsou nám známy údaje o stářía ceně10 ojetých aut. a) Vytvořte regresní model závslost ceny auta na jeho stáří. b) Posuďte kvaltu tohoto modelu. c) Odhadněte střední hodnotu ceny aut starých 10 let. Stáří(roky) 3 4 5 6 7 7 8 8 9 9 Cena (ts.kč) 167 165 139 149 119 19 89 115 76 89 Jnánterpretace: a. Můžeme očekávat, že vlvem stáříauta se bude měnt jeho cena? Jakéje vaše očekávání? b. Jak se změnícena auta, pokud auto bude mít o rok více? c. Jakábude cena aut, kterébudou mít stáří10 let? Data naleznete v souboru Felca1.sas7bdat a v 4st01_cv9_pomocny.xlsx 3 Jednoduchá lneární regrese v SASu Analyze Regresson Lnear Task role dependent varable: cena -Explanatory varables : stáří Statstcs confdence lmts for parameter estmates -Confdence level: 95% Plots Observed vs ndependets (none) Pokud chceme předpovídat konkrétníndvduálnípředpověd: Analyse -Lnear Regresson -Predctons -Orgnal sample, Dsplay Output -Show predctons 4

Zdroje varablty závslé proměnné, měřené pomocí teoretckého, rezduálního a celkového součtu čtverců. Celkový F- test Příslušné stupně volnost Směrodatnéodchylky odhadnutých parametrů Koefcent determnace Intervaly spolehlvost regresních kfctů Odhadnutéparametry regresního modelu Dílčít-testy: pro každý parametr se ptám: je významně různý od nuly? 5 Příklad 9.1. nápověda k a) a.) Budeme uvažovat regresní přímku: y = β0 + βx 1 + ε kde yje cena auta a x je stáříauta. Koefcenty regresního modelu odhadneme metodou nejmenších čtverců: n b = 1 x n y - x x ( x ) - y b 0 = n y -b 1 n x Výslednáfunkce je: Y=.*x Koefcenty nterpretujemejako: b 0 =odpovídáhodnotěpro x=0, tedy průsečíkůpřímky s osou y, znamenáodhad středí hodnoty nového auta. b 1 =značísměrnc přímky, zápornéznaménko znamená, že s rostoucím stářím auta, klesá jeho cena. Koefcent sloužíjako odhad, že s každým rokem navíc se středníhodnota ceny auta snížío.ts. Kč. 6

Příklad 9.1. nápověda k b) b.) Kvaltu modelu posuzujeme na základěhodnoty koefcentu determnace R. Ten je složen z teoretckého součtu čtvercůs T a celkového součtu čtvercůs Y. ST R = S y kde S S y T ( ) ( ) y = y-y = y - n ( ) ( ) y = Y -y = b0 y + b1 xy - n ( y -Y ) S -S ) ( SR = = Y T Výsledný ndex determnace máhodnot. Zjstl jsme, že. varablty cen aut je v daném souboru vysvětleno zvoleným regresním modelem. 7 Příklad 9.1. nápověda k c) c.) Předpověďndvduálníceny pro auta starákonkrétnídobu, učníme dosazením požadovaného stářído vypočítanéregresnírovnce: Y=0,156 14,156 *. = Odpověď:.... 8

Jednoduchá lneární regrese - testy Testování správnost regresních koefcentů: Dílčít-testy Celkový F-test Po vytvořeníregresního modelu je nutno prozkoumat, zda zvolenéregresníkoefcenty jsou statstcky významné, nebol, zda exstuje opravdu závslost mez cenou a stářím auta. Dílčí t-testy testují každý parametr zvlášť: 1.) H 0 : β 1 =0, H 1 : non H 0 Testovékrtérum: b1 t = s ( b) 1 Testovékrtérum je t=. Krtcký obor je vymezen kvantlem t 1-α/ (n-p)=.. testovanou hypotézu o nulovém regresním koefcentu. 9 Jednoduchá lneární regrese - testy Dílčí t-testy testují každá parametr zvlášť(pokračování):.) H 0 : β 0 =0, H 1 : non H 0 Testovékrtérum: b0 t = s ( b ) 0 Testovékrtérum je t=. Krtcký obor je vymezen kvantlem t 1-α/ (n-p)=.. testovanou hypotézu o nulovém koefcentu β 0. 10

Celkový F-test: Jednoduchá lneární regrese - testy Celkovým F-testem testujeme statstckou významnost všech regresních koefcentův modelu. V lneárním modelu je hypotéza shodnás dílčím t-testem: H 0 : βj=0, H 1 : non H 0 Testovékrtérum: F = S T p -1 S R n - p Testovékrtérum je rovno F=. Krtcký obor je vymezen kvantlem: F 1-α (p-1,n-p)=.. jsme hypotézu o všech nulových koefcentech regresního modelu. 11 Vícenásobná regrese Příklad 9..: Máme údaje o stáří, počtu najetých km a ceně0 ojetých aut Felíce Comb. a) Zkonstruujte regresní model závslost ceny auta na jeho stáří a na počtu najetých km b) Posuďte jeho kvaltu c) Použjte jej k odhadu ceny auta starého 6 let, kterémánajeto 60 ts. Km. Data naleznete v souboru Felca.sas7bdat Postup je stejný jako u jednoduché regrese, pouze nterpretace se rozšřuje o další koefcent. 1

Vícenásobná regrese v SASu Řešenív SASu: Analyze regresson lnear Task role dependent varable: cena - explanatory varables: staří, km Odhad ndvduálnípředpověd: Analyse -Lnear Regresson -Predctons -Orgnal sample, Dsplay Output - Show predctons (předpověď defnovaná v posledním řádku) 13 Na hladněvýznamnost 5% jsme prokázal platnost hypotézy o tom,m že alespoňjeden z regresních kfctůje nenulový, tedy, že alespoňjedna z uvažovaných vysvětlujících proměnných ovlvňuje cenu. Hodnota koefcentu determnace 0.9316 znamená, že přes 93% varablty závsléproměnnébyla vysvětlena modelem. Dílčí t-testy obou regresních kfctů potvrzují oprávněnost zařazení obou vysvětlujících proměnných. Regresníkonstanta,59 představuje odhad středníhodnoty ceny, za kterou by se prodávalo auto s nulovým stářím a s nulovým počtem najetých km. Dílčí regresní kfc -11,850 vyjadřuje pokles ceny odpovídající přírůstku stářío 1 rok, očštěných od vlvu počtu najetých km. Tzn. Že pokud by měla auta stejněnajeto a lšla se jen stářím o 1 rok, bude se jejch cena lšt v průměru o 11,850 ts. Kč. Dílčíregresníkfc -0,0 vyjadřuje průměrný pokles ceny př vzrůstu počtu najetých km o 1 ts., zůstane l stejnéstáří. Tzn, že u stejněstarých aut, lšících se poštem najetých km o 1ts., lze očekávat průměrný rozdíl ceny 0,0 ts. Kč. Bodový odhad ceny auta starého 6 let, který má najeto 160 Km, je přblžně 139 ts. Kč. 14

Korelační analýza Korelačníanalýzou posuzujeme sílu závslost mez dvěma proměnným. Sílu lneární závslost měříme pomocí korelačního koefcentu, který pro nezávslé velčny je roven nule. S x,y je výběrovákovarancevelčn x a y. 15 Korelační analýza Chceme-l testovat, zda jsou dvě velčny lneárně nezávslé, používáme test o nulové hodnotě korelačního koefcentu v základním souboru. Testováhypotéza: Testové krtérum: Dvěvelčny spolu korelují, pokud jedna věcněsouvsís druhou, jedna velčna je závslána druhéč měříoběvelčny to saménebo na oběvelčny působístejnévlvy. 16

Korelační analýza Příklad 9.3.: Na 10 vybraných místech byla měřena míra znečštěnívzduchu, máme naměřeno metodam koncentrac znečšťujícílátky. Vypočtěte, zda jsou dvěmetody korelované. místo 1 3 4 5 6 7 8 9 10 M1(x) 1,9 7,9 4,3 9,9 13, 7,9 15 17, 11,4 6 M(y) 13,6 9,5 5,9 8,9 11, 7,8 13,9 16,8 1,4 6, Postup: 1. Spočítejte výběrový korelačníkoefcent mez velčnam X a Y.. Učňte závěr dle hodnoty výběrového korelačního koefcntu. 3. Proveďte test o nulovém korelačním koefcentu pro hypotézu ρ 0 Soubor 4st01_cv10_pomocny.xls (web) Soubor meren.sas7bdat(i:/) 17 Korelační analýzy v SASu Analyse Multvarate Correlatons Task role jména proměnných (!!nezáleží na pořadí!!) Optons Pearson Results create a scatter plot for each correlaton par (bodový dagram) Je v bodovém grafu možno vdět, jakázávslost je? 18

Základní charakterstky Př. 10.1. - Korelační analýza Hodnota testového krtéra Závslost mez oběm proměnným je patrná 19