4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte chybějící údaje ve výstupu z regresní analýzy v SAS. Vyhodnoťte výsledek F-testu a individuálních t-testů. Využijte vztahu mezi různými součty čtverců a indexem determinace. Source DF Sum of Squares Mean Squares F Value Model 1 Error 504 Corrected 505 42716 R-Square 0.4835 Adj R-Sq 0.4825 Variable DF Parameter Estimate Standard Error t Value Intercept 1-34.67062 2.64980 X 1 9.10211 0.41903 Vícenásobná lineární regrese v řadě případů se nepodaří vysvětlit změny závisle proměnné pouze jednou vysvětlující proměnnou, pak můžeme úlohu rozšířit o více vysvětlujících proměnných a hovoříme o vícenásobné regresi náročné nebo nemožné využít grafické analýzy pro posouzení vhodnosti regresní funkce - využití matematicko-statistických kritérií (testy, míry těsnosti, korelační koeficienty ) v případě lineární závislosti vysvětlované proměnné na každé z vysvětlujících proměnných konstruujeme mnohonásobnou lineární funkci a zkoumáme vícenásobnou lineární regresi vícenásobná lineární regresní funkce: = + + + +,,, = dílčí regresní koeficienty, udávají odhad toho, jak se průměrně změní hodnota vysvětlované proměnné při jednotkové změně dané vysvětlující proměnné za předpokladu, že ostatní vysvětlující proměnné zůstanou konstantní pro koeficient determinace platí, že přidáním dalších proměnných do modelu se jeho hodnota nesníží, proto model s větším množství vysvětlujících proměnných bude působit jako kvalitnější než model s nižším počtem vysvětlujících proměnných proto se pro srovnání více modelů s různým počtem vysvětlujících proměnných používá tzv. upravený koeficient determinace, který zohledňuje počet parametrů modelu =1 (1 ) 1 1
Př. 10.2 Při zjišťování účinnosti dvou různých způsobů reklamy na tržby z prodeje nového CD byly získány následující údaje (zbozi.sas7bdat): tržby (tis. Kč) náklady (tis. Kč) rádio a televize tisk 1119 0 40 625 25 25 971 30 30 1177 35 35 982 40 25 1577 45 45 914 50 0 1330 55 25 1436 60 30 1741 65 35 1717 70 40 a) Odhadněte parametry lineární regresní funkce, popisující závislost tržeb (y) na velikosti výdajů na reklamu v rádiu a televizi (x 1) a na velikosti výdajů na reklamu v tisku (x 2). Charakterizujte těsnost závislosti. b) Posuďte vhodnost zařazení proměnných do modelu na základě výsledků testů. c) Jaký průměrný přírůstek tržeb lze podle tohoto modelu očekávat při zvýšení nákladů na reklamu v tisku o 5000 Kč, zůstanou-li náklady na reklamu v rádiu a televizi stejné? d) Proveďte bodový odhad velikosti tržeb, vydá-li se na reklamu v rádiu a televizi 40 tis. Kč a na reklamu v tisku 35 tis. Kč. Source DF Sum of Squares Mean Square F Value p-value Model 2 1 065 848 532 924 19,9 0,000789 Error 8 214 567 26 821 Corrected Total 10 1 280 415 R-Square 0,8324 Adj R-Sq 0,7905 Variable DF Parameter Estimate Standard Error t Value p-value Intercept 1 123,7 184,75 0,67 0,521991 Radio_TV 1 12,6 2,56 4,93 0,001149 Tisk 1 18,9 4,32 4,37 0,002393 2
Př. 10.3 Na obrázku je uveden výstup z vícenásobné regresní analýzy v SAS, odpovídající modelu vícenásobné lineární regrese se dvěma vysvětlujícími proměnnými. Model má popisovat závislost pracovní neschopnosti (%) na průměrném věku pracovníků a na podílu žen na celkovém počtu pracovníků (%). Co všechno je možné z výstupu vyčíst? Vypočtěte hodnotu koeficientu determinace a upraveného koeficientu determinace. Variable DF Parameter Standard Error t Value Pr > t Intercept 1-3.04695 1.11682-3.05058 0.0186 vek 1 0.0100588 0.0190678 0.527529 0.6141 zeny 1 0.160399 0.0156658 10.2388 0.0000 Source DF Sum of Squares Mean Squares F Value Pr > F Model 2 3.91442 1.95721 66.64 0.0000 Error 7 0.205577 0.0293682 Corrected 9 4.12 Př. 10.4 Srovnejte model z předchozího příkladu s modelem, který obsahuje pouze proměnnou ženy. Který z těchto modelů je kvalitnější? Variable DF Parameter Estimate Standard Error t Value p-value Intercept 1-2,88125 0,480920139-5,991 0,0003 zeny 1 0,15625 0,012922546 12,091 0,0000 Source DF Sum of Squares Mean Squares F Value p-value Model 1 3,90625 3,90625 146,20 0,0000 Error 8 0,21375 0,02671875 Corrected Total 9 4,12 3
Závislost 2 číselných proměnných - korelační analýza Co testujeme? jednoduchý (párový) korelační koeficient měří sílu vzájemné lineární závislosti mezi dvěma proměnnými = = nabývá hodnot z intervalu <-1;1>, kde kladné hodnoty značí přímou lineární závislost a záporné hodnoty nepřímou lineární závislost čím více se hodnota korelačního koeficientu blíží ke krajním hodnotám, tím lze závislost považovat za silnější hodnoty blízké nule neznamenají obecně nezávislost, nýbrž pouze lineární nezávislost (= nekorelovanost) sledovaných proměnných =0,93 = 0,88 = 0,09 = 0,12 Test nulová hypotéza o nezávislosti formulována jako hypotéza o nulové hodnotě korelačního koeficientu : ρ =0 :ρ 0 => lineární nezávislost proměnných => lineární závislost proměnných testové kritérium t má při platnosti nulové hypotézy studentovo t rozdělení s = 2 stupni volnosti = 2 1 Kritický obor = ; / ( 2) / ( 2); 4
Př. 10.5 U 15 chlapců jsme spočítali počet udělaných kliků a počet shybů. Spočítejte, jestli existuje vzájemná lineární závislost mezi počtem shybů a počtem kliků a vyčíslete intenzitu této závislosti. chlapec shybů kliků 1 1 10 2 3 15 3 2 15 4 0 0 5 5 40 6 6 25 7 1 7 8 4 31 9 3 30 10 5 35 11 6 41 12 2 10 13 1 14 14 1 9 15 8 64 5