ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší a velm často jej lze použít aspoň přblžně. Dále přjmeme předpoklad, že sledované velčny jsou normální. V dalším textu se budeme zabývat specálním případem REGRESNÍ ANALÝZY - metodou lneární regrese.
Základy lneární regrese Regrese je velm často užívaná statstcká metoda, která se zabývá problémem vysvětlení změn jedné velčny závslostí na jedné nebo více jných velčnách. Uvažujme nejjednodušší případ, kdy vysvětlujeme velčnu Y lneární závslostí na jedné velčně X.
Lneární regrese Vdíme, že s rostoucí hodnotou velčny x se zhruba lneárně mění hodnota Y, body na obrázku kolísají kolem myšlené přímky, kterou bychom mohl naměřeným body proložt. Hodnoty velčny Y můžeme vyjádřt jako součet dvou složek: Y = β 0 + β 1 x + ε, kde = 1,2,,n (1) β 0, β 1 jsou neznámé koefcenty určující lneární závslost ε náhodná kolísání způsobená nepřesností měření, bologckou varabltou a dalším rušvým faktory Pokud střední hodnoty náhodného kolísání jsou nulové, pak E(ε ) = 0 a rovnc (1) můžeme přepsat E(Y X = x ) = E(Y ) = β 0 + β 1 x (2) čl střední hodnoty náhodných velčn Y za podmínky, že velčna X má hodnotu x, leží na přímce dané rov. (2).
Lneární regrese Rovnce (1) a (2) formulují lneární regresní model jako vyjádření naší představy o závslost velčny Y na velčně X. - X je vysvětlující proměnná (regresor) - Y je vysvětlovaná proměnná. Neznámé koefcenty β 0, β 1 jsou parametry regresního modelu a říkáme jm regresní koefcenty. Odhad regresních koefcentů β 0 a β 1 z dat je jednou ze základních úloh regresní analýzy: potřebujeme nalézt takové hodnoty b 0, b 1, které by určovaly přímku Ŷ = b 0 + b 1 x 1 co nejlépe prokládající naměřená data. Hodnoty b 0, b 1 jsou pak odhady regresních koefcentů β 0, β 1 Ŷ je odhadem E( Y x = x ) Co nejlepší proložení může být formulováno různým způsoby, nejčastěj se užívá metoda nejmenších čtverců (MNČ) (vz dále).
Lneární regrese - metoda nejmenších čtverců MNČ znamená, že hledáme takové hodnoty b 0 (úsek, který vytíná přímka na ose Y) a b 1 (směrnce přímky), aby součet čtverců odchylek pozorovaných hodnot Y od hodnot Ŷ S e byl co nejmenší: S e n = 1 2 ( ˆ ) 2 Y Y = ( Y b b x ) mn = n = 1 0 1 Metodu nejmenších čtverců vysvětluje následující obrázek. Řešíme úlohu, jak volt hodnoty b 0 a b 1, aby součet ploch vyznačených čtverců byl co nejmenší.
Nulová hypotéza Dokazovaná hypotéza o lneární závslost obou velčn, jejímž modelem je regresní přímka, stojí prot nulové hypotéze, která říká, že mez velčnam neexstuje žádný vztah a jejch uspořádání lze vysvětlt pouhou náhodou. Hypotézu nezávslost velčn H 0 modeluje přímka rovnoběžná s osou x protínající osu y ve střední hodnotě a procházející bodem y [ x, y] Pokud bude statstcký test významný, zamítáme hypotézu H 0 a přjímáme hypotézu o lneární závslost obou velčn. Prncp testu spočívá v porovnání velkost regresního a rezduálního rozptylu. Regresní rozptyl je vypočten pomocí vzdáleností od přímky H 0 k regresní přímce, rezduální rozptyl pomocí vzdáleností od regresní přímky k naměřeným hodnotám - vz obrázek.
Lneární regrese Y vysvětlovaná proměnná pro výpočet Rezduálního rozptylu H 0 pro výpočet Regresního rozptylu regresní přímka X - vysvětlující proměnná
LINEÁRNÍ REGRESNÍ MODEL - příklad r. 1886 Francs Galton vytvořl model závslost výšky prvorozených synů na výšce jejch otců v této prác použl termín REGRESE začal se používat jako název metody Testujeme hypotézu H 0 : výška syna nezávsí na výšce otce prot hypotéze H 1 : výška syna je lneárně závslá na výšce otce cílem je zjstt, zda rozdíly mez modely je možno vysvětlt pomocí náhody Mějme dva matematcké modely (v našem případě dvě přímky): první přímka vyjadřuje nezávslost, je rovnoběžná s osou X (H 0 ) druhou přímku (H 1 ) zkonstruujeme pomocí MNČ tak, aby svslé vzdálenost pozorovaných hodnot byly od přímky co nejmenší (svslé proto, že za závslou považujeme velčnu Y)
Model lneární regrese - vztah výšky otce a syna x - nezávsle proměnná y - závsle proměnná jednotlvá pozorování rezduum odchylka od modelu y + β x + = β 0 1 ε Výška syna y 160 170 180 190 0 160 165 170 175 180 185 190 195 Výška otce x
y = α + β x + y.x y.x ε Lneární regrese mnmalzujeme otec syn =otec+zkreslení Co se stane když zaměním x a y? x = α + β y + x.y mnmalzujeme x.y syn otec =syn+zkreslení Můžeme předpokládat kauzaltu? Jakou? ε Výška syna 160 170 180 190 y x 160 165 170 175 180 185 190 195 Výška otce
LINEÁRNÍ REGRESNÍ MODEL Cílem regresního modelu je porovnat rozdíl mez - modelem hypotetckého rozdělení H 0 : výška syna nezávsí na výšce otce - a modelem H A : výška syna je lneárně závslá na výšce otce. H 0 jsme stanovl jako přímku Y = b 0 (b 1 = 0) H A je regresní přímka Y = β 0 + β 1 x + ε Součet čtverců odchylek závsle proměnné Y od jejího odhadu můžeme rozdělt na dvě část: 1. varabltu vysvětlenou regresním modelem (rozdíl mez H A a H 0 ) 2. a na část, kterou model nevysvětluje, která zbývá, tedy je resduální (rozdíl mez H A a naměřeným hodnotam - tedy ε) Analogcky jako u analýzy rozptylu bude testovací statstka podíl součtu čtverců odchylek dělených počtem stupňů volnost.
LINEÁRNÍ REGRESNÍ MODEL Testovací statstka se vypočte jako podíl - čtverců očekávaných odchylek H A - H 0 dělený počtem stupňů volnost - a čtverců rezduálního rozptylu dělený počtem stupňů volnost. F S S 2 reg. p 1 S Srez. n p = 2 počet stupňů volnost v čtatel vypočteme jako počet parametrů regresního modelu mínus počet parametrů odhadovaných u H 0 (p - 1) počet stupňů volnost ve jmenovatel jako počet naměřených hodnot mínus počet parametrů regresního modelu (n - p) n počet měření p počet parametrů regresní přímky: p = 2 1 počet odhadovaných parametrů hypotézy H 0
Zobrazení vztahu dvou nezávslých spojtých velčn Dvojce náhodných SPOJITÝCH VELIČIN X a Y. Jejch sdružené rozložení má dvourozměrnou hustotu f(x,y)
Sdružená hustota dvou závslých velčn
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN Třírozměrný graf sdružené hustoty (sdruženého rozložení) dvou velčn na předchozím obrázku vyjadřuje závslost obou náhodných velčn. Průmětu jedné velčny do rovny říkáme margnální hustota. Rozložení jedné velčny např. X pouze u těch objektů, pro které platí Y = y (druhá velčna = konstantě) je tzv. podmíněném rozložení a můžeme s ho představt jako řez celkovým rozložením v bodu Y = y. Tyto podmíněné funkce hustoty jsou na rozdíl od margnální hustoty obvykle užší a to tím více, čím pevnější je vazba mez X a Y.