Diagnostika regrese pomocí grafu 7krát jinak

StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi vs. Rezidua v menu: Statistiky > Vícenásobná regrese > Residua/předpoklady/předpovědi > Residuální analýza. Ne, že by ostatní grafy nebyly při vyhodnocování analýzy důležité, nicméně zmíněný graf by měl být jednou z hlavních pomůcek pro určení, zda je náš model správný. Tento graf vám ukážeme za porušení nejrůznějších předpokladů regresní analýzy, abyste si mohli porovnat, jak je toto porušení viditelné a co to pro výsledky znamená. Regresní model a jeho předpoklady Ačkoli se na to často a někdy i rádo zapomíná, regresní model má několik předpokladů. Porušení každého z nich značí jisté problémy pro odhady parametrů nebo konfidenční intervaly. Nyní se podíváme, jak se porušení předpokladů promítne do grafu předpovědí proti reziduím. Shrňme alespoň v krátkosti, co je to regresní model. Regresní model je vlastně vyšetřování závislosti jedné spojité proměnné v závislosti na ostatních nezávislých proměnných. Typickým příkladem je například závislost váhy na výšce. Více o problematice regrese se můžete dozvědět například na našem odborném kurzu Regresní analýza. Vzorcem bychom uvedli regresní model jako: Y = b 0 + b 1 X 1 + b 2 X 2 + + E, kde Y je závislá proměnná - odezva (v našem případě váha), X 1, X 2, jsou nezávislé proměnné regresory (v naší situaci máme jen jeden a tím je výška), E reprezentuje náhodnou chybu, přece jen není možné, aby v reálu všichni s danou výškou měli úplně stejnou váhu. Předpoklady tohoto regresního modelu: 1. Střední hodnota chybové složky je 0 2. Správně specifikovaný model tedy rovnice modelu je správně vybrána 3. Chybová složka má konstantní rozptyl (pro každé pozorování má příslušná složka vektoru E stejný rozptyl) 4. Jednotlivé složky chybového vektoru jsou nekorelované 5. Rozdělení chyb je normální Výsledky regresní analýzy v grafech Bude následovat skupina obrázků. Obrázek vlevo je vždy vizualizace dat s červenou předpovězenou regresní přímkou (data jsou generovány jako regresní přímka, tedy se rovnice regresního modelu zjednoduší na Y = b 0 + b 1 X + E, X a Y jsou vykresleny v grafu), modrá křivka značí přesnou teoretickou závislost, kterou se snaží model najít. Pravý obrázek je pak obrázek grafů předpovědí vůči reziduím (jen připomeneme, reziduum je rozdíl naměřené a předpovězené hodnoty). a) Všechny předpoklady splněny V první sadě obrázků data splňují všechny předpoklady. Vidíme, že regresní přímka je velmi blízko skutečné závislosti. Body na grafu předpovědi versus rezidua jsou rozmístěny náhodně, není v nich vidět žádný vzor, rozložení bodů v grafu se s rostoucími hodnotami na ose X nemění. Rozložení záporných a kladných reziduí je také podobné. Přesně takto by měl vypadat graf správného modelu a při našem modelování bychom se měli snažit takového výsledku dosáhnout.

b) Porušení předpokladů špatná střední hodnota chyby Máme k dispozici nová data, kde střední hodnota chyby je 10 místo 0, ostatní předpoklady modelu jsou splněny. Vidíme, že odhad je posunut přibližně o 10, graf předpovědí vůči reziduím je stejný jako v bodě a), tedy v pořádku. Problém s nesplněním předpokladu střední hodnoty není možné nějak odhalit. c) Porušení předpokladů špatná závislost V datovém souboru na následujícím obrázku mají data v reálu kvadratickou závislost, nicméně, my se i přesto snažíme proložit data přímkou. V grafu předpovězených hodnot jasně vidíme, že hodnoty nejsou v žádném případě rozloženy náhodně. Nízké a vysoké předpovězené hodnoty jsou podhodnoceny, hodnoty ve středu jsou naopak nadhodnoceny.

d) Porušení předpokladu konstantnosti rozptylu Případ nekonstantnosti rozptylu může vypadat typicky tak, že rozptyl roste spolu s rostoucím X. Není tedy splněn předpoklad konstantního rozptylu. Typickým chováním grafu předpovězených hodnot proti reziduím je nestejná rozptýlenost (velikost) reziduí pro různě velké předpovězené hodnoty. e) Závislost mezi složkami chybového členu Závislost jsme vyvolali tak, že konkrétní složka chyby E je součtem 0,5 násobku náhodného čísla z normálního rozdělení a 0,5 násobku předchozí chybové složky, jednotlivé složky chybového vektoru E tedy jsou korelované. Z grafu předpovědí je patrné nenáhodné rozložení reziduí, když je jedno reziduum záporné, další po něm v řadě má tendenci být také záporné. f) Porušení předpokladů přítomnost odlehlých pozorování Tuto situaci bychom zahrnuli do porušení předpokladů o rozdělení chybového členu, v datech máme 5 pozorování ( zakroužkované pro přehlednost v pravém dolním rohu). Odlehlé pozorování je pozorování, které je daleko od většiny dat. Klasickým důsledkem přítomnosti odlehlých dat je to, že už i jen málo odlehlých pozorování dokáže velmi vychýlit odhad (na obrázku vidíme změnu směrnice regresní přímky, kdy vlastně tato už jde mimo většinu dat). Podobnou situaci spolu s obrovskými rezidui odlehlých pozorování vidíme na druhém obrázku.

g) Porušení předpokladu normality Chybová složka v posledním příkladu dat s porušenými předpoklady regresního modelu pochází z rovnoměrného rozdělení mezi hodnotami -3 a 3. Jak je vidět z obrázků, toto neovlivňuje odhad parametrů a graf reziduí vypadá na první pohled také dobře. Zkušené oko by odhalilo, že rozvrstvení bodů okolo 0 je rovnoměrné a nikoli normální, ale na první pohled to poznat nemusíme. Graf pro diagnostiku normálního rozdělení K rozpoznání nenormality slouží jiný graf, ve STATISTICA zvaný p-graf nebo v literatuře známý jako normální QQ-graf. Pro úplnost uvedeme ke všem výše popsaným situacím i p-normální graf reziduí (k nalezení ve výsledcích reziduální analýzy). Přesnou definici p-grafu necháme na jindy, pro tuto chvíli nám stačí vědět, co v p-grafu hledat. Čím blíže leží body p-grafu na přímce, tím mají bližší rozdělení normálnímu rozdělení. Rezidua v regresním modelu mají mít normální rozdělení, proto chceme mít body v p-grafu co nejvíce na přímce.

Situace a) Situace b) Situace c) Situace d) Situace e) Situace f ) Situace g) Vidíme, že v případech špatné funkční závislosti a logicky také nesprávného rozdělení chybové složky, je nenormalita reziduí viditelná. U odlehlých pozorování je vidět odchýlení od přímky právě u těchto bodů.

Závěrem Cílem tohoto článku bylo ukázat čtenáři zajímavý pohled na regresní analýzu a její předpoklady prostřednictvím grafu předpovědí vůči reziduím. Věříme, že prezentace výsledků na souborech dat, kde jsou porušeny předpoklady modelu, jsou tou pravou formou, jak přispět k lepšímu pochopení celé problematiky. StatSoft CR s. r. o. Ringhofferova 115/1, 155 21 Praha 5 Zličín t + 420 233 325 006, f + 420 233 324 005 e info@statsoft.cz