LEKCE11 ZÁKLADY LINEÁRNÍ REGRESE - VZTAH SPOJITÝCH PRO- MĚNNÝCH Velmi často nás zajímá jaký je VZTAH SPOJITÉ VELIČINY k ostatním veličinám, neboli to, co se ve statistice nazývá REGRESE. Cílem REGRESE je vjádřit VZTAH SPOJITÉ VELIČINY k ostatním veličinám prostřednictvím: REGRESNÍ ROVNICE (nějaké funkce), která b umožnila predikovat hodnotu určité proměnné na základě znalosti hodnot jiné proměnné. REGRESNÍ ČÁRY, která je grafickým vjádřením regresního vztahu (regresní rovnice) ve formě: - Regresní KŘIVKY (jako vjádření nelineárního vztahu). - Regresní PŘÍMKY (jako vjádření lineárního vztahu - lineární regrese). GRAPHS SCATTERPLOT SIMPLE pro osu Average female life epectanc pro osu Females who read 90 Average female life epectanc 70 50 0 20 100 120 Females who read (%)
2 GRAPHS SCATTERPLOT SIMPLE pro osu Average female life epectanc pro osu Females who read EDITOVAT GRAF: SCATTERPLOT OPTIONS (změnit CASE LABELS OFF na CASE LABELS ON) FIT LINE TOTAL (zadat) 90 Average female life epectanc 70 50 Spain Ital Hong Kong Greece Israel Australia Singapore Costa USA Rica Kuwait Portugal Panama Cuba Chile Barbados Meico Urugua Lithuania Poland Venezuela Hungar Georgia Belarus Estonia Colombia Paragua Argentina Azerbaijan Armenia Ukraine Latvia Bahrain U.Arab Jordan Em. S. Russia Korea Turke Ecuador N. Korea Malasia Thailand Uzbekistan Lebanon Morocco Saudi Arabia Honduras Domincan R. El China Salvador Iraq Sria Vietnam Philippines Guatemala Iran Nicaragua Peru Brazil Botswana Liba Indonesia Bolivia Egpt India Pakistan Senegal Cameroon Gabon Liberia Nigeria Somalia Ethiopia Bangladesh Gambia Cambodia Burkina Faso Burundi Haiti Rwanda Tanzania Afghanistan Cent. Afri.R Uganda Kena Zambia 0 20 100 120 Females who read (%)
3 REGRESNÍ MODEL V JEDNODUCHÉ LINEÁRNÍ REGRESI Základní informace, o kterou usilujeme je rovnice regresní (predikční) přímk. V případě JEDNODUCHÉ LINEÁRNÍ REGRESE je její obecný tvar: = b 0 + b 1 Ve složitějším případě bchom mohli uvažovat i o tzv. náhodné chbě (random error) e, protože ne všechn bod leží přímo na přímce: = b 0 + b 1 + e = ZÁVISLE PROMĚNNÁ - závisle proměnná neboli výsledek (outcome). Je to ta proměnná, jejíž hodnotu chceme predikovat. 1 = NEZÁVISLE PROMĚNNÁ - neboli prediktor. Je to ta proměnná, jejíž hodnota slouží k predikci hodnot. b 0 = b 1 = Konstanta neboli INTERCEPT, bod ve kterém přímka protne osu (hodnota pro i = 0). SMĚRNICE (sklon) přímk neboli SLOPE, která určuje o kolik jednotek se změní hodnota, kdž se hodnota změní o 1 jednotku e = náhodná chba (variance nevsvětlitelné regresní rovnicí zahrnutými nezávislými proměnnými). Může jít nejen o: JEDNODUCHOU LINEÁRNÍ REGRESI, kd jde o vliv jediné nezávisle proměnné na sledovanou závislou proměnnou. Příklad: Souvislost mezi velikostí inflace (vjádřené mírou inflace) a velikostí nezaměstnanosti (vjádřené mírou nezaměstnanosti). míra nezaměstnanosti = a + b. míra inflace ale též o: MNOHONÁSOBNOU LINEÁRNÍ REGRESI, kd jde o současný kombinovaný vliv více nezávisle proměnných na sledovanou závislou proměnnou Příklad: Subjektivní hranice chudob jako vjádření SPL = a + b 1. příjem rodin + b 2. počet dospělých v rodině + b 3. počet dětí v rodině
4 CÍL REGRESNÍ ANALÝZY Najít koeficient, které pomohou odhadnout hodnotu predikované proměnné za pomoci hodnot predikátoru pro nové případ. Těmito koeficient jsou již zmíněné: Konstanta (intercept) b 0 což je bod, ve kterém přímka protíná osu (=0). Sklon (směrnice) přímk (slope) b 1 (respektive b) což je poměr mezi vertikální změnou a horizontální změnou podél přímk. Jinak řečeno je to změna, která je způsobena změnou o jednotku. PŘÍMKA JE MODELEM ROZLOŽENÍ DAT V sociální realitě se nesetkáváme s případ ideální lineární regrese. Data jsou více či méně rozptýlena a linearita vztahu je vjádřena tím, že přímka je jen vhodným modelem pro proložení dat (vjadřuje tendenci v datech). Dat lze proložit řadu přímek. Nejjednodušší způsob jak stanovit regresní přímku je metoda nejmenších čtverců odchlek (residuálů). Jen u jedné z přímek je totiž suma čtverců odchlek minimální.
5 IDENTIFIKACE REGRESNÍ PŘÍMKY Nejjednodušší způsob identifikace regresní respektive predikční přímk představuje METODA NEJMENŠÍCH ČTVERCŮ Predikované a pozorované hodnot se liší (predikční přímka je pozorovanými hodnotami proložena) o tzv. RESIDUÁLY. pozorovaná hodnota tato hodnota b měla být pozorována tato hodnota je pozorována predikční přímka odchlka (residuál) predikovaná hodnota odchlka (residuál) pozorovaná hodnota Součet čtverců všech residuálu musí být nejmenší možný. PŘÍMKA NENÍ JEN MODELEM ROZLOŽENÍ DAT má též PREDIKČNÍ HODNOTU (predikční přímka). Z každé hodnot odvodíme příslušnou hodnotu. odpovídá dosažení určité hodnot i i odpovídá dosažení určité hodnot
6
7 PŘÍKLAD VÝPOČET KONSTANT Coefficients a Model 1 a. (Constant) BIRTHRAT Births per 1000 population, 1992 Unstandardized Coefficients Standard ized Coefficie nts B Std. Error Beta t Sig. 89,985 1,765 50,995,000 -,697,050 -,968-13,988,000 Dependent Variable: LIFEEXPF Female life epectanc 1992 intercept směrnice (slope) URČENÍ ROVNICE: = 89,985-0,697.