REGRESNÍ ANALÝZA 13. cvčení
Závslost náhodných velčn Závslost mez kvanttatvním proměnným X a Y: Funkční závslost hodnotam nezávsle proměnných je jednoznačně dána hodnota závslé proměnné. Y=f(X) Stochastcká (volná) závslost systematcký pohyb jedné velčny př růstu č poklesu druhé velčny (studujeme prostřednctvím korelační a regresní analýzy) Korelační pole pro funkční závslost Korelační pole pro stochastckou závslost
Korelační a regresní analýza Vyhodnocují vztah mez spojtým velčnam. Nekauzální vztahy (neznáme příčnu a důsledek) korelační analýza Kauzální vztahy (víme co je příčna a co je následek) korelační regresní analýza. Nezávsle proměnná (vysvětlující proměnná) = vysvětluje chování závslé proměnné (příčna) Závsle proměnná (vysvětlovaná proměnná) = proměnná jejíž chování se snažíme vysvětlt (následek)
Typy regrese Lneární regrese - pro pops závslost velčn využívá funkce lneární v parametrech (např. Y = β + 0 β1x ), resp. funkce, které lze na lneární v parametrech převést pomocí β1 vhodné transformace (např. ) Y = Nelneární regrese - pro pops závslost velčn využívá funkce nelneární v parametrech (tyto funkce nelze na lneární v parametrech převést pomocí žádné transformace např.: = β β X ) Y 0 1 β 0 X
Typy regrese Jednoduchá regrese - studuje kauzální závslost dvou velčn (velkost syna na velkost otce) Vícenásobná regrese - studuje kauzální závslost jedné velčny na alespoň dvou dalších velčnách (velkost syna na velkost otce a matky)
Korelační pole = Zakreslená data do bodového pole. Vysvětlovaná(závsle) proměnná Výška syna Vyrovnaná hodnota Ŷ Naměřená hodnota Y 160 170 180 190 Rezduum e e = Y Yˆ Regresní model (vyrovnávací křvka) 160 165 170 175 180 185 190 195 Výška otce Vysvětlující(nezávsle) proměnná
Jednoduchý lneární regresní model Vyrovnávací křvka: Y β + β x + = 0 1 e Parametry modelu Rezduum Náhodná složka popsuje vlv náhodných nebo nepozorovaných regresorůa vlv náhody
Předpoklady jednoduchého reg. modelu Lneární regresní model je lneární v parametrech. Parametry modelu β mohou nabývat lbovolných hodnot. Normalta náhodné složky (rezduí e ). Nulová střední hodnota náhodné složky (rezduí) E(e ) = 0. Rozptyl náhodné složky (rezduí e ) je konstantní. Kovarance náhodné složky je nulová - Cov (e,e j ) = 0 pro každé j, kde, j =1,2,,n. Podmínky lneárního regresního modelu je nutno v rámc regresní analýzy ověřt.
Postup př regresní analýze 1. Exploratorní analýza korelačního pole (případný odhad typu regresní funkce, dentfkace vlvných bodů) 2. Odhad koefcentů regresní funkce (aplkace vyrovnávacího krtéra) 3. Verfkace modelu - vychází z ověření předpokladů jednoduchého regresního modelu. Většna ověřovacích metod je založena na studu chování rezduí. 1. Celkový F-test 2. Dílčí t-testy 3. Index determnace 4. Autokorelace rezduí 5. Testy rezduí 4. Predkce (pás spolehlvost, pás predkce)
1. Exploratorní analýza korelačního pole Odhad typu regresní funkce (pokud není znám) Identfkace vlvných bodů (pozor na body sgnalzující chybějící část populace ve výběru) V appletu Regrese http://m21.vsb.cz/modul/uvod-do-statstky sledujte vlv pozce vlvných bodů na pozc vyrovnávací přímky.
2. Odhad koefcentů regresní funkce Cílem je mnmalzace rezduí. Vyrovnávací krtéra - krtéra pomocí nchž volíme nejvhodnější způsob odhadu parametrů regresní funkce. Proč nestačí mnmalzovat součet rezduí? Y 0 X Mohlo by dojít k tomu, že součet rezduí je nulový, přestože jednotlvá rezdua jsou velká. =>
2. Odhad koefcentů regresní funkce Metoda nejmenších čtverců => Metoda nejmenších čtverců: Mnmalzuje součet čtverců rezduí. Nejpoužívanější vyrovnávací krtérum pro lneární regresní modely. Vzualzace prncpu metody nejmenších čtverců
2. Odhad koefcentů regresní funkce Metoda nejmenších čtverců pro přímku Regresní přímka: Bodový odhad regresní přímky: EY Yˆ = β0 + β1 x = b0 + b1 x Součet čtverců rezduí: φ = = n = 1 n = 1 ( e ) = ( ) 2 n Y Yˆ = ( Y b b x ) 2 = 1 0 1 2 φ Mnmalzace b 0,b 1 : hledáme staconární body, tj. body, ve kterých jsou parcální dervace nulové ( ) dφ db 1 dφ db 0 = = ( ) ( ) [( Y b b x ) ( x )] 2 0 1 ( Y b b ) 2 0 1 x = 0 = 0
2. Odhad koefcentů regresní funkce Metoda nejmenších čtverců pro přímku φ d db d db 1 0 φ = ( ) = ( Y b b ) 2 0 1 x ( ) = 0 [( Y b b x ) ( x )] 2 0 1 = 0 = nb0 b1 x ( ) ( ) Y 0 ( ) 2 x b1 x = xy b 0 0 ( ) ( t ) b 0 = ( ) ( ) n Y b 1 n x = Y b 1 x b 1 = n ( ) n ( ) xy 2 x x ( ) ( ) x ( ) Y 2
2. Odhad koefcentů regresní funkce Význam bodových odhadů jednotlvých koefcentů lneární regrese: b 0 odhaduje hodnotu závsle proměnné za předpokladu, že hodnoty všech regresorů jsou nulové (např. výnos pšence pokud nepoužíváme žádné hnojvo) b 1 odhaduje závsle proměnnou v případě, kdy se regresor zvýší o 1 (např. navýšení výnosu pšence př zvýšení množství hnojva o 1kg/m 2 )
3. Verfkace modelu celkový F-test Testuje, jestl je vysvětlovaná proměnná lneární kombnací vybraných funkcí vysvětlující proměnné. Nulová a alternatvní hypotéza: H 0 : β K = β 0 H A : 1 = k = H ( ) 2 0 Yˆ Y SSY ˆ ( ) Testová statstka: F = n k = SSR k 1 počet pozorování ( ) n ( ˆ) Y Y k k 2 1 F počet regresorů ( k; n k 1) Výpočet p-value: p value = 1 F( xobs)
3. Verfkace modelu celkový F-test Výstupem testu je opět tabulka ANOVA: Zdroj rozptýlenost Součet čtverců Stupně volnost (DF) Průměrný čtverec Testová stat. F P-value Model SS Yˆ = ( ) ( Yˆ Y ) 2 k MS = Yˆ SS k Yˆ F MS Yˆ = 1 F( xobs) MS R Náhodná složka (Rezdua) SS R = ( ) ( Y Yˆ ) 2 n-k-1 MS R = SSR n k 1 Celkový SS Y = ( ) ( Y Y ) 2 n-1
3. Verfkace modelu dílčí t-testy Dílčí t-testy jsou testy o hodnotách jednotlvých parametrů regresní funkce a umožňují testovat oprávněnost setrvání příslušné funkce vysvětlující proměnné v regresním modelu. (Testujeme pro =0, 1,, k) Nulová a alternatvní hypotéza: H 0 : β = 0 H A : β 0 Testová statstka: b s b β t n k +1
3. Verfkace modelu ndex determnace R 2 Udává kvaltu regresního modelu, tj. jaká část rozptylu vysvětlované proměnné je vysvětlena modelem. Nízká hodnota R 2, nemusí znamenat nízký stupeň závslost mez proměnným, ale může sgnalzovat chybnou volbu typu regresní funkce. R 2 SS n Yˆ = 1 = = n SSY = 1 (ˆ Y ( Y Y) Y) 2 2
3. Verfkace modelu autokorelace rezduí Na základě předpokladu ln. reg. modelu, že kovarance rezduí je nulová, je zřejmé, že rovněž autokorelace rezduí musí být nulová. Lze tedy předpokládat, že na grafu rezduí nesmí být patrná žádná funkční závslost. 0 0 Funkčnízávslost rezduí
3. Verfkace modelu testy rezduí Test normalty rezduí (Test dobré shody, Kolmogorovův-Smrnovův test, Shapro- Wlkův test, ) Test homoskedastcty rezduí (velm obtížný, není součást většny statstckého software) Test nulové střední hodnoty rezduí (jednovýběrový t-test)
Výstup regrese ve Statgraphcsu Typ modelu, rovnce vyrovnávací funkce Závsle a nezávsle proměnná Bodové odhady koefcentů regresní přímky Bodové odhady směrodatných odchylek koefcentů regresní přímky Výsledky dílčích t-testů Součty čtverců pro model, rezduální a celkový Rezduální výběrový rozptyl Výsledek F-testu pro regres Korelační koefcent Koefcent determnace Výběrová rezduální směrodatná odchylka Rovnce vyrovnávací přímky
Test
Vyberte správný výraz: a) Kolmogorovův-Smrnovův test ve své základní podobě (lze, nelze) použít pro testování normalty. b) Použjeme-l χ 2 test dobré shody pro ověření toho, zda je klascká šeststěnná hrací kostka férová, pak má v případě platnost nulové hypotézy testová statstka rozdělení s (4; 5; 6) stupn volnost.
Vyberte správný výraz: a) Kolmogorovův-Smrnovův test ve své základní podobě (lze, nelze) použít pro testování normalty. b) Použjeme-l χ 2 test dobré shody pro ověření toho, zda je klascká šeststěnná hrací kostka férová, pak má v případě platnost nulové hypotézy testová statstka rozdělení s (4; 5; 6) stupn volnost.
Vyberte správný výraz: a) Kolmogorovův-Smrnovův test ve své základní podobě (lze, nelze) použít pro testování normalty. b) Použjeme-l χ 2 test dobré shody pro ověření toho, zda je klascká šeststěnná hrací kostka férová, pak má v případě platnost nulové hypotézy testová statstka rozdělení s (4; 5; 6) stupn volnost.
Vyberte správný výraz: c) Pro úplně specfkovaný test dobré shody se spojtým rozdělením je vhodnější použít (χ 2 test dobré shody, Kolmogorovův-Smrnovův test). d) Chceme-l pro ověření shody mez teoretckým a emprckým rozdělením použít test dobré shody, musí být všechny (pozorované, očekávané) četnost jednotlvých varant, resp. třídících ntervalů, větší než 5.
Vyberte správný výraz: c) Pro úplně specfkovaný test dobré shody se spojtým rozdělením je vhodnější použít (χ 2 test dobré shody, Kolmogorovův-Smrnovův test). d) Chceme-l pro ověření shody mez teoretckým a emprckým rozdělením použít test dobré shody, musí být všechny (pozorované, očekávané) četnost jednotlvých varant, resp. třídících ntervalů, větší než 5.
Vyberte správný výraz: c) Pro úplně specfkovaný test dobré shody se spojtým rozdělením je vhodnější použít (χ 2 test dobré shody, Kolmogorovův-Smrnovův test). d) Chceme-l pro ověření shody mez teoretckým a emprckým rozdělením použít test dobré shody, musí být všechny (pozorované, očekávané) četnost jednotlvých varant, resp. třídících ntervalů, větší než 5.
Vyberte správný výraz: e) Čím člentější je mozakový graf, tím (slabší, slnější) závslost mez velčnam v kontngenční tabulce pozorujeme. f) Analyzujeme-l závslost v kontngenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávslost můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koefcent kontngence (se vyskytuje v ntervalu (0;1); může nabývat hodnot větších než 1).
Vyberte správný výraz: e) Čím člentější je mozakový graf, tím (slabší, slnější) závslost mez velčnam v kontngenční tabulce pozorujeme. f) Analyzujeme-l závslost v kontngenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávslost můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koefcent kontngence (se vyskytuje v ntervalu (0;1); může nabývat hodnot větších než 1).
Vyberte správný výraz: e) Čím člentější je mozakový graf, tím (slabší, slnější) závslost mez velčnam v kontngenční tabulce pozorujeme. f) Analyzujeme-l závslost v kontngenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávslost můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koefcent kontngence (se vyskytuje v ntervalu (0;1); může nabývat hodnot větších než 1).
Vyberte správný výraz: e) Čím člentější je mozakový graf, tím (slabší, slnější) závslost mez velčnam v kontngenční tabulce pozorujeme. f) Analyzujeme-l závslost v kontngenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávslost můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koefcent kontngence (se vyskytuje v ntervalu (0;1); může nabývat hodnot větších než 1).
Vyberte správný výraz: e) Čím člentější je mozakový graf, tím (slabší, slnější) závslost mez velčnam v kontngenční tabulce pozorujeme. f) Analyzujeme-l závslost v kontngenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávslost můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koefcent kontngence (se vyskytuje v ntervalu (0;1); může nabývat hodnot větších než 1).
Vyberte správný výraz: h) (Kontngenční, Asocační) tabulka je specálním případem (kontngenční, asocační) tabulky. ) Je-l odhad relatvního rzka RR=1,2, pak (mez znaky v asocační tabulce exstuje závslost, mez znaky v asocační tabulce neexstuje závslost, o závslost znaků v asocační tabulce musí rozhodnout test). j) Kvalta 50 různých výukových materálů byla dvěma odborníky hodnocena na stupnc od 1 do 5. Vhodnou mírou závslost mez hodnocením jednotlvých odborníků je (Pearsonův, Spearmanův) korelační koefcent.
Vyberte správný výraz: h) (Kontngenční, Asocační) tabulka je specálním případem (kontngenční, asocační) tabulky. ) Je-l odhad relatvního rzka RR=1,2, pak (mez znaky v asocační tabulce exstuje závslost, mez znaky v asocační tabulce neexstuje závslost, o závslost znaků v asocační tabulce musí rozhodnout test). j) Kvalta 50 různých výukových materálů byla dvěma odborníky hodnocena na stupnc od 1 do 5. Vhodnou mírou závslost mez hodnocením jednotlvých odborníků je (Pearsonův, Spearmanův) korelační koefcent.
Vyberte správný výraz: h) (Kontngenční, Asocační) tabulka je specálním případem (kontngenční, asocační) tabulky. ) Je-l odhad relatvního rzka RR=1,2, pak (mez znaky v asocační tabulce exstuje závslost, mez znaky v asocační tabulce neexstuje závslost, o závslost znaků v asocační tabulce musí rozhodnout test). j) Kvalta 50 různých výukových materálů byla dvěma odborníky hodnocena na stupnc od 1 do 5. Vhodnou mírou závslost mez hodnocením jednotlvých odborníků je (Pearsonův, Spearmanův) korelační koefcent.
Vyberte správný výraz: h) (Kontngenční, Asocační) tabulka je specálním případem (kontngenční, asocační) tabulky. ) Je-l odhad relatvního rzka RR=1,2, pak (mez znaky v asocační tabulce exstuje závslost, mez znaky v asocační tabulce neexstuje závslost, o závslost znaků v asocační tabulce musí rozhodnout test). j) Kvalta 50 různých výukových materálů byla dvěma odborníky hodnocena na stupnc od 1 do 5. Vhodnou mírou závslost mez hodnocením jednotlvých odborníků je (Pearsonův, Spearmanův) korelační koefcent.