cvčící 9. cvčení 4ST01 Obsah: Jednoduchá lneární regrese Vícenásobná lneární regrese Korelační analýza Vysoká škola ekonomcká 1 Jednoduchá lneární regrese Regresní analýza je statstcká metoda pro modelování závslostí mez číselným proměnným. Tuto závslost mez vysvětlovanou proměnnou (Y)a jednou nebo více vysvětlujícím proměnným (X)se snažíme popsat pomocímodelu, obsahujícího determnstckou složku η(vlv vysvětlujících proměnných) a náhodnou složku ε(všechny ostatní vlvy, ať už náhodné, nebo neuvažované) Nejjednodušším regresním modelem závslost vysvětlované proměnné pomocí jedné vysvětlující proměnné je model regresní přímky. Jelkožskutečnéparametry modelu neznáme, odhadujeme je pomocímodelu, který je pro jednotky v našem výběrovém souboru optmální. Za optmálnípovažujeme takovéhodnoty parametru, pro kteréje součet čtvercových odchylek (rezduí) mnmální.
Jednoduchá lneární regrese Příklad 9.1.: Jsou nám známy údaje o stářía ceně10 ojetých aut. a) Vytvořte regresní model závslost ceny auta na jeho stáří. b) Posuďte kvaltu tohoto modelu. c) Odhadněte střední hodnotu ceny aut starých 10 let. Stáří(roky) 3 4 5 6 7 7 8 8 9 9 Cena (ts.kč) 167 165 139 149 119 19 89 115 76 89 Jnánterpretace: a. Můžeme očekávat, že vlvem stáříauta se bude měnt jeho cena? Jakéje vaše očekávání? b. Jak se změnícena auta, pokud auto bude mít o rok více? c. Jakábude cena aut, kterébudou mít stáří10 let? Data naleznete v souboru Felca1.sas7bdat a v 4st01_cv9_pomocny.xlsx 3 Jednoduchá lneární regrese v SASu Analyze Regresson Lnear Task role dependent varable: cena -Explanatory varables : stáří Statstcs confdence lmts for parameter estmates -Confdence level: 95% Plots Observed vs ndependets (none) Pokud chceme předpovídat konkrétníndvduálnípředpověd: Analyse -Lnear Regresson -Predctons -Orgnal sample, Dsplay Output -Show predctons 4
Zdroje varablty závslé proměnné, měřené pomocí teoretckého, rezduálního a celkového součtu čtverců. Celkový F- test Příslušné stupně volnost Směrodatnéodchylky odhadnutých parametrů Koefcent determnace Intervaly spolehlvost regresních kfctů Odhadnutéparametry regresního modelu Dílčít-testy: pro každý parametr se ptám: je významně různý od nuly? 5 Příklad 9.1. nápověda k a) a.) Budeme uvažovat regresní přímku: y = β0 + βx 1 + ε kde yje cena auta a x je stáříauta. Koefcenty regresního modelu odhadneme metodou nejmenších čtverců: n b = 1 x n y - x x ( x ) - y b 0 = n y -b 1 n x Výslednáfunkce je: Y=.*x Koefcenty nterpretujemejako: b 0 =odpovídáhodnotěpro x=0, tedy průsečíkůpřímky s osou y, znamenáodhad středí hodnoty nového auta. b 1 =značísměrnc přímky, zápornéznaménko znamená, že s rostoucím stářím auta, klesá jeho cena. Koefcent sloužíjako odhad, že s každým rokem navíc se středníhodnota ceny auta snížío.ts. Kč. 6
Příklad 9.1. nápověda k b) b.) Kvaltu modelu posuzujeme na základěhodnoty koefcentu determnace R. Ten je složen z teoretckého součtu čtvercůs T a celkového součtu čtvercůs Y. ST R = S y kde S S y T ( ) ( ) y = y-y = y - n ( ) ( ) y = Y -y = b0 y + b1 xy - n ( y -Y ) S -S ) ( SR = = Y T Výsledný ndex determnace máhodnot. Zjstl jsme, že. varablty cen aut je v daném souboru vysvětleno zvoleným regresním modelem. 7 Příklad 9.1. nápověda k c) c.) Předpověďndvduálníceny pro auta starákonkrétnídobu, učníme dosazením požadovaného stářído vypočítanéregresnírovnce: Y=0,156 14,156 *. = Odpověď:.... 8
Jednoduchá lneární regrese - testy Testování správnost regresních koefcentů: Dílčít-testy Celkový F-test Po vytvořeníregresního modelu je nutno prozkoumat, zda zvolenéregresníkoefcenty jsou statstcky významné, nebol, zda exstuje opravdu závslost mez cenou a stářím auta. Dílčí t-testy testují každý parametr zvlášť: 1.) H 0 : β 1 =0, H 1 : non H 0 Testovékrtérum: b1 t = s ( b) 1 Testovékrtérum je t=. Krtcký obor je vymezen kvantlem t 1-α/ (n-p)=.. testovanou hypotézu o nulovém regresním koefcentu. 9 Jednoduchá lneární regrese - testy Dílčí t-testy testují každá parametr zvlášť(pokračování):.) H 0 : β 0 =0, H 1 : non H 0 Testovékrtérum: b0 t = s ( b ) 0 Testovékrtérum je t=. Krtcký obor je vymezen kvantlem t 1-α/ (n-p)=.. testovanou hypotézu o nulovém koefcentu β 0. 10
Celkový F-test: Jednoduchá lneární regrese - testy Celkovým F-testem testujeme statstckou významnost všech regresních koefcentův modelu. V lneárním modelu je hypotéza shodnás dílčím t-testem: H 0 : βj=0, H 1 : non H 0 Testovékrtérum: F = S T p -1 S R n - p Testovékrtérum je rovno F=. Krtcký obor je vymezen kvantlem: F 1-α (p-1,n-p)=.. jsme hypotézu o všech nulových koefcentech regresního modelu. 11 Vícenásobná regrese Příklad 9..: Máme údaje o stáří, počtu najetých km a ceně0 ojetých aut Felíce Comb. a) Zkonstruujte regresní model závslost ceny auta na jeho stáří a na počtu najetých km b) Posuďte jeho kvaltu c) Použjte jej k odhadu ceny auta starého 6 let, kterémánajeto 60 ts. Km. Data naleznete v souboru Felca.sas7bdat Postup je stejný jako u jednoduché regrese, pouze nterpretace se rozšřuje o další koefcent. 1
Vícenásobná regrese v SASu Řešenív SASu: Analyze regresson lnear Task role dependent varable: cena - explanatory varables: staří, km Odhad ndvduálnípředpověd: Analyse -Lnear Regresson -Predctons -Orgnal sample, Dsplay Output - Show predctons (předpověď defnovaná v posledním řádku) 13 Na hladněvýznamnost 5% jsme prokázal platnost hypotézy o tom,m že alespoňjeden z regresních kfctůje nenulový, tedy, že alespoňjedna z uvažovaných vysvětlujících proměnných ovlvňuje cenu. Hodnota koefcentu determnace 0.9316 znamená, že přes 93% varablty závsléproměnnébyla vysvětlena modelem. Dílčí t-testy obou regresních kfctů potvrzují oprávněnost zařazení obou vysvětlujících proměnných. Regresníkonstanta,59 představuje odhad středníhodnoty ceny, za kterou by se prodávalo auto s nulovým stářím a s nulovým počtem najetých km. Dílčí regresní kfc -11,850 vyjadřuje pokles ceny odpovídající přírůstku stářío 1 rok, očštěných od vlvu počtu najetých km. Tzn. Že pokud by měla auta stejněnajeto a lšla se jen stářím o 1 rok, bude se jejch cena lšt v průměru o 11,850 ts. Kč. Dílčíregresníkfc -0,0 vyjadřuje průměrný pokles ceny př vzrůstu počtu najetých km o 1 ts., zůstane l stejnéstáří. Tzn, že u stejněstarých aut, lšících se poštem najetých km o 1ts., lze očekávat průměrný rozdíl ceny 0,0 ts. Kč. Bodový odhad ceny auta starého 6 let, který má najeto 160 Km, je přblžně 139 ts. Kč. 14
Korelační analýza Korelačníanalýzou posuzujeme sílu závslost mez dvěma proměnným. Sílu lneární závslost měříme pomocí korelačního koefcentu, který pro nezávslé velčny je roven nule. S x,y je výběrovákovarancevelčn x a y. 15 Korelační analýza Chceme-l testovat, zda jsou dvě velčny lneárně nezávslé, používáme test o nulové hodnotě korelačního koefcentu v základním souboru. Testováhypotéza: Testové krtérum: Dvěvelčny spolu korelují, pokud jedna věcněsouvsís druhou, jedna velčna je závslána druhéč měříoběvelčny to saménebo na oběvelčny působístejnévlvy. 16
Korelační analýza Příklad 9.3.: Na 10 vybraných místech byla měřena míra znečštěnívzduchu, máme naměřeno metodam koncentrac znečšťujícílátky. Vypočtěte, zda jsou dvěmetody korelované. místo 1 3 4 5 6 7 8 9 10 M1(x) 1,9 7,9 4,3 9,9 13, 7,9 15 17, 11,4 6 M(y) 13,6 9,5 5,9 8,9 11, 7,8 13,9 16,8 1,4 6, Postup: 1. Spočítejte výběrový korelačníkoefcent mez velčnam X a Y.. Učňte závěr dle hodnoty výběrového korelačního koefcntu. 3. Proveďte test o nulovém korelačním koefcentu pro hypotézu ρ 0 Soubor 4st01_cv10_pomocny.xls (web) Soubor meren.sas7bdat(i:/) 17 Korelační analýzy v SASu Analyse Multvarate Correlatons Task role jména proměnných (!!nezáleží na pořadí!!) Optons Pearson Results create a scatter plot for each correlaton par (bodový dagram) Je v bodovém grafu možno vdět, jakázávslost je? 18
Základní charakterstky Př. 10.1. - Korelační analýza Hodnota testového krtéra Závslost mez oběm proměnným je patrná 19