Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA
Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná
Cíl analýz Odhadnout hodnot parametrů a a b Odhadnout standardní chb parametrů Použít standardní chb k odhadu, které parametr modelu jsou důležité Odhadnout, jaká část rozptlu dat je Odhadnout, jaká část rozptlu dat je modelem vsvětlena (určení koeficientu determinace r )
Prvý krok: explorace dat Mají data sestupný či vzestupný trend? Pokud takový trend existuje, je lineární či nelineární? Je rozptl dat kolem modelu homogenní, a nebo se sstematick mění s hodnotou x?
Závislost váh housenek na obsahu taninu Váhov vý přírůstek (mg) 1 1 4 6 8 Obsah taninu (%)
Závislost váh housenek na obsahu taninu klesá s rostoucí x trend je lineární rozptl se sstematick nemění s hodnotou x 1 1 4 6 8 O bsah taninu (% )
Závislost váh housenek na obsahu taninu: očekávání průsečík a je větší než nula sklon b je negativní rozptl kolem je konstantní a relativně malý 1 1 4 6 8 O bsah taninu (% )
Metoda nejmenších čtverců Slouží k definici přímk nejlepší shod, která minimalizuje sumu čtverců odchlek hodnot od přímk nejlepší shod 1 1 4 6 8 O bsah taninu (% )
Předpoklad modelu Chb jsou omezené na závisle proměnnou ; jsou nezávislé na úrovni vsvětlující proměnné x; mají normální rozložení Rozptl je homogenní
Metoda nejmenších čtverců Slouží k definici přímk nejlepší shod, která minimalizuje sumu čtverců odchlek hodnot od přímk nejlepší shod 1 1 4 6 8 O bsah taninu (% )
1 Metoda nejmenších čtverců SST ( ) = 1 1 1 d = 4 6 8 4 6 8 Obsah taninu (%)
1. Kde b měla být umístěna?. Jaký b měla mít sklon? Přímka nejlepší shod Umístění: přímka nejlepší shod b měla procházet průměrnými hodnotami x a : Sklon: přímka b měla být otáčena kolem bodu x, až do dosažení sklonu nejlepší shod: Váhový přírůste ek (mg) 1 1 x 6 8 Obsah taninu (%)
Váhový přírůste ek (mg) = a + a = SSE SSE 1 1 Přímka nejlepší shod: formalizace bx b n a = = min min n x e = x = n x n ( a bx) b e = Sklon nejlepší shod b se získá derivací rovnice pro SSE x = a + bx 6 8 Obsah taninu (%)
Sklon nejlepší shod: výpočet hledáme funkci, která minimalizuje hodnotu b v rovnici derivujeme rovnici podle b: dsse db = x( a bx) SSE ( a bx) = min dsse db = ( x ax bx ) konstantu dáme před závorku a čísla v závorce násobíme x: sumujeme každý člen zvlášť, nalézáme minimum funkce tím, že pokládáme derivaci podle b rovnou nule a zbavujeme se konstant tím, že obě stran rovnice dělíme dvěma: x ax bx = rovnici nemůžeme přímo řešit, protože obsahuje dvě neznámé, a a b. Hodnotu a jsme si však již definovali rovnicí x a = b n n dosazením za a a přepsáním ax = a x, bx = b x dostaneme: x b x b x = x n n ( ) x x x b x = n x x = b n ( ) x x : n násobením členů v závorce x x + b n obě člen obsahující b dáme na stejnou stranu rovnice: odhad b získáme vdělením obou stran rovnice x x = n b ( x) x n x b ( x) n
přírůstek (mg) Váhový 1 1 1 a 1 Přímka nejlepší shod: význam b = SSXY SSX d = e = SSE = min = a + bx SST 4 6 8 b ( ) = ( a bx) x 6 8 Obsah taninu (%)
Metoda nejmenších čtverců: tři důležité vzorce SST = ( ) n ( x) SSX = x n = x SSXY x n SST měří celkový rozptl hodnot kolem průměru ru (rozptl d) SSX měří stejným způsobem rozptl hodnot x kolem průměru x; měří rozsah hodnot x regresního grafu SSXY měří korelaci hodnot x a. SSXY je negativní, pokud klesá s rostoucí hodnotou x; je pozitivní, pokud roste s x; je nula, pokud a x nejsou korelované
Testování významnosti Test je založen na standardních chbách parametrů Standardní chb závisejí na rozptlu chb a na stupních volnosti 1 1 4 6 8 O bsah taninu (% )
Standardní chba regresního sklonu Naše důvěra v odhadnutou hodnotu regresního sklonu bude velká, kdž: budeme mít velký počet opakování; budeme mít velký rozsah hodnot x (SSX bude veliká); rozptl chb bude malý. 1 1 4 6 8 O bsah taninu (% )
přírůstek (mg) Váhový 1 1 1 a 1 Standardní chba regresního sklonu Jaká b sklon bla statistick relativní průkazně d = hodnota nelišil d a od e nul?, kdb se 4 6 8 e = ležet na přímce, bude SST=SSE Jaká je hodnota, kdž se sklon statistick průkazně liší od nul? (Konkrétně, je průkazně negativní?) SSE<SST V hraničním případě, kd budou všechn bod SSE= x 6 8 Obsah taninu (%)
Standardní chba regresního sklonu: regresní suma čtverců SSR = SST SSE SSR bude veliká, jestliže fitovaná přímka vsvětlí velkou část variabilit SSR bude malá, pokud lineární trend bude málo patrný SSR se bude rovnat SST, pokud bude shoda regresní přímk s fitovanými dat dokonalá, protože SSE bude nulová. SSR bude nulová, jestliže bude nezávislé na x 1 1 4 6 8 O bsah taninu (% )
ANOVA tabulka lineární regrese Zdroj SS d.f. MS F-test P Regrese SSR 1 SSR SSR Tabulk Chba SSE n - Celkem SST n - 1 s = SSE n s
Výpočet regresní sum čtverců Tento výpočet je nepraktický; lépe je nejprve spočítat SSR = b.ssx (odvození viz Sokal a Rohlf, Biometr, 1994, 3. vdání, s. 47-476) a pak SSE podle vztahu: SSE = SST - SSR 1 1 4 6 8 O bsah taninu (% )
SE b = Standardní chba regresního sklonu b s (odvození viz Sokal a Rohlf, Biometr, 1994, SSX 3. vd., s. 47-476) standardní chba roste s rostoucí hodnotou chbového rozptlu standardní chba klesá, jestliže roste rozsah hodnot, přes které bla měřena hodnota x; to dává dobrý intuitivní smsl čím větší rozsah hodnot x bl pokrt, tím důvěrhodnější bude odhad sklonu 1 1 4 6 8 O bsah taninu (% )
Interval spolehlivosti (konfidenční interval CI) regresního sklonu CI b = t tabulk SE b (odvození viz Sokal a Rohlf, Biometr, 1994, 3. vd., s. 17-17) Pro normální rozložení to je hodnota z tabulek t-testu, pro dvoustranou hpotézu na % hladině významnosti to je α =,. 1 1 4 6 8 O bsah taninu (% )
SE a = Standardní chba průsečíku a s x (odvození Sokal a Rohlf, Biometr, 1994, 3. vd., nssx s. 47-476) standardní chba a má ted stejné závislosti jako standardní chba b, ale navíc závisí na: 1. Čtverci vzdálenosti mezi mezi průměrnou hodnotou x a hodnotou bodu, pro kterou je predikce dělána; důvěra v predikci klesá se vzdáleností od průměrné hodnot,tj. s ( x x). Střední chba průsečíku klesá s rostoucím počtem bodů na grafu, tj. s hodnotou n. 1 1 4 6 8 O bsah taninu (% )
Interval spolehlivosti (konfidenční interval CI) průsečíku CI a = t tabulk SE a (odvození viz Sokal a Rohlf, Biometr, 1994, 3. vd., s. 17-17) Pro normální rozložení to je hodnota z tabulek t-testu, pro dvoustranou hpotézu na % hladině významnosti to je α =,. 1 1 4 6 8 O bsah taninu (% )
Standardní chba libovolné předvídané hodnot ( x x) 1 (odvození Sokal a Rohlf, Biometr, 1994, 3. SE = s + n SSX vd., s. 47-476) standardní chba průsečíku je ted jen speciálním případem standardní chb libovolné předvídané hodnot pro x = 1 1 4 6 8 O bsah taninu (% )
Lineární regrese: numerický příklad Tanin (%) x 1 3 4 6 7 8 Váhový přírůstek (mg) 1 1 8 11 6 7 3 3 X = 36, X = 4, Y = 6, Y = 36, XY = 17 ( XY je (x1)+(1x1)+ +(8x3) = 17 1 1 4 6 8 O bsah taninu (% )
Lineární regrese: numerický příklad X = 36, X = 4, Y = 6, Y = 36, XY = 17 ( XY je (x1)+(1x1)+ +(8x3) = 17 b = SSXY SSX = 1,1666 6 SST = 36 = 18,889 9 a = bx = 11,7 36 6 36 SSX = 4 = 6 = = 6,889; x = = 4, 9 9 9 36x6 SSR = b. SSXY = 1,167 x( 73) = 88,8 SSXY = 17 = 73 SSE = SST SSR = 18,89 88,8 =,7 9 7 1 1 4 6 8 O bsah taninu (% )
ANOVA tabulka lineární regrese Zdroj SS d.f. MS F-test P Regrese 88,8 1 88,8 3,98,8 Chba,7 7,867 Celkem 18,89 8
Střední chb sklonu a průsečíku s,867 SE b = = =,186 SSX 6 s x SE a = nssx,867x4 9x6 = = 1,41 CI b = t tabulk SE b =,867,36 =,47 6,867 x4 CI a = t tabulk SE a =,36 9x6 =,463 1 1 4 6 8 O bsah taninu (% )
9% CI parametrů a a b a = 11,76 ±,463 b = -1,17 ±,47 1 1 4 6 8 O bsah taninu (% )
Stupeň roztroušenosti (scatter) Data mohou mít stejný sklon přímk nejlepší shod (PNS), ale velmi různý stupeň roztroušenosti kolem této přímk Vedle sklonu PNS je potřeba definovat, jakou část variabilit tato přímka vsvětluje PNS vsvětluje skoro všechen rozptl PNS vsvětluje velmi málo rozptlu PNS vsvětluje všechen rozptl PNS nevsvětluje žádný rozptl x
Měřítko stupně roztroušenosti Mělo b nabývat hodnot mezi nulou a jednou. Lze ho definovat jako část SST, vsvětlené modelem. Přitom víme, že SSE je variabilita, která nebla vsvětlena modelem a SSR je variabilita vsvětlená modelem. Měřítko roztroušenosti se nazývá koeficient determinace r a je dán jako poměr SSR a SST: r = SSR SST
Stupeň roztroušenosti (scatter) SSE = SSR = SST r = 1 SSE = SST r = x r je korelační koeficient: SSXY r = SSX. SST (odvození Sokal a Rohlf, 1994, 3. vd., 9-66)
Regrese v S-Plus 1. Seznámení s dat. Navržení modelu 3. Fitování modelu 4. Kritika modelu. Analýza odlehlých hodnot 6. Zjednodušení modelu
Prvý krok: explorace dat Mají data sestupný či vzestupný trend? Pokud takový trend existuje, je lineární či nelineární? Je rozptl dat kolem modelu homogenní, a nebo se sstematick mění s hodnotou x? 1 1 4 6 8 O bsah taninu (% )