Diagnostika regrese pomocí grafu 7krát jinak

Podobné dokumenty
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Regresní analýza. Eva Jarošová

StatSoft Jak poznat vliv faktorů vizuálně

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Analýza rozptylu dvojného třídění

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Regresní analýza 1. Regresní analýza

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Korelační a regresní analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

LINEÁRNÍ REGRESE. Lineární regresní model

StatSoft Jak se pozná normalita pomocí grafů?

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

PRAVDĚPODOBNOST A STATISTIKA

Pearsonův korelační koeficient

Úvodem Dříve les než stromy 3 Operace s maticemi

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Kalibrace a limity její přesnosti

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

6. Lineární regresní modely

Odhad parametrů N(µ, σ 2 )

Tvar dat a nástroj přeskupování

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Semestrální práce. 2. semestr

4. Zpracování číselných dat

Regresní a korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statistika (KMI/PSTAT)

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

6. Lineární regresní modely

Fyzikální korespondenční seminář MFF UK

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Stavový model a Kalmanův filtr

Kalibrace a limity její přesnosti

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

vzorek vzorek

odpovídá jedna a jen jedna hodnota jiných

UNIVERZITA PARDUBICE

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Časové řady, typy trendových funkcí a odhady trendů

10. Předpovídání - aplikace regresní úlohy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

Inovace bakalářského studijního oboru Aplikovaná chemie

Kalibrace a limity její přesnosti

AVDAT Geometrie metody nejmenších čtverců

4EK211 Základy ekonometrie

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Jednofaktorová analýza rozptylu

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

Tvorba nelineárních regresních modelů v analýze dat

Časové řady, typy trendových funkcí a odhady trendů

Analýza dat na PC I.

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

5EN306 Aplikované kvantitativní metody I

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Návrhy dalších možností statistického zpracování aktualizovaných dat

Tomáš Karel LS 2012/2013

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Popisná statistika kvantitativní veličiny

http: //meloun.upce.cz,

KORELACE. Komentované řešení pomocí programu Statistica

Kalibrace a limity její přesnosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Bodové a intervalové odhady parametrů v regresním modelu

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Měření závislosti statistických dat

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

S E M E S T R Á L N Í

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

KGG/STG Statistika pro geografy

Normální (Gaussovo) rozdělení

Statistická analýza jednorozměrných dat

Funkce tangens. cotgα = = B a. A Tangens a cotangens jsou definovány v pravoúhlém trojúhelníku: a protilehlá b přilehlá.

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

KGG/STG Statistika pro geografy

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Transkript:

StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi vs. Rezidua v menu: Statistiky > Vícenásobná regrese > Residua/předpoklady/předpovědi > Residuální analýza. Ne, že by ostatní grafy nebyly při vyhodnocování analýzy důležité, nicméně zmíněný graf by měl být jednou z hlavních pomůcek pro určení, zda je náš model správný. Tento graf vám ukážeme za porušení nejrůznějších předpokladů regresní analýzy, abyste si mohli porovnat, jak je toto porušení viditelné a co to pro výsledky znamená. Regresní model a jeho předpoklady Ačkoli se na to často a někdy i rádo zapomíná, regresní model má několik předpokladů. Porušení každého z nich značí jisté problémy pro odhady parametrů nebo konfidenční intervaly. Nyní se podíváme, jak se porušení předpokladů promítne do grafu předpovědí proti reziduím. Shrňme alespoň v krátkosti, co je to regresní model. Regresní model je vlastně vyšetřování závislosti jedné spojité proměnné v závislosti na ostatních nezávislých proměnných. Typickým příkladem je například závislost váhy na výšce. Více o problematice regrese se můžete dozvědět například na našem odborném kurzu Regresní analýza. Vzorcem bychom uvedli regresní model jako: Y = b 0 + b 1 X 1 + b 2 X 2 + + E, kde Y je závislá proměnná - odezva (v našem případě váha), X 1, X 2, jsou nezávislé proměnné regresory (v naší situaci máme jen jeden a tím je výška), E reprezentuje náhodnou chybu, přece jen není možné, aby v reálu všichni s danou výškou měli úplně stejnou váhu. Předpoklady tohoto regresního modelu: 1. Střední hodnota chybové složky je 0 2. Správně specifikovaný model tedy rovnice modelu je správně vybrána 3. Chybová složka má konstantní rozptyl (pro každé pozorování má příslušná složka vektoru E stejný rozptyl) 4. Jednotlivé složky chybového vektoru jsou nekorelované 5. Rozdělení chyb je normální Výsledky regresní analýzy v grafech Bude následovat skupina obrázků. Obrázek vlevo je vždy vizualizace dat s červenou předpovězenou regresní přímkou (data jsou generovány jako regresní přímka, tedy se rovnice regresního modelu zjednoduší na Y = b 0 + b 1 X + E, X a Y jsou vykresleny v grafu), modrá křivka značí přesnou teoretickou závislost, kterou se snaží model najít. Pravý obrázek je pak obrázek grafů předpovědí vůči reziduím (jen připomeneme, reziduum je rozdíl naměřené a předpovězené hodnoty). a) Všechny předpoklady splněny V první sadě obrázků data splňují všechny předpoklady. Vidíme, že regresní přímka je velmi blízko skutečné závislosti. Body na grafu předpovědi versus rezidua jsou rozmístěny náhodně, není v nich vidět žádný vzor, rozložení bodů v grafu se s rostoucími hodnotami na ose X nemění. Rozložení záporných a kladných reziduí je také podobné. Přesně takto by měl vypadat graf správného modelu a při našem modelování bychom se měli snažit takového výsledku dosáhnout.

b) Porušení předpokladů špatná střední hodnota chyby Máme k dispozici nová data, kde střední hodnota chyby je 10 místo 0, ostatní předpoklady modelu jsou splněny. Vidíme, že odhad je posunut přibližně o 10, graf předpovědí vůči reziduím je stejný jako v bodě a), tedy v pořádku. Problém s nesplněním předpokladu střední hodnoty není možné nějak odhalit. c) Porušení předpokladů špatná závislost V datovém souboru na následujícím obrázku mají data v reálu kvadratickou závislost, nicméně, my se i přesto snažíme proložit data přímkou. V grafu předpovězených hodnot jasně vidíme, že hodnoty nejsou v žádném případě rozloženy náhodně. Nízké a vysoké předpovězené hodnoty jsou podhodnoceny, hodnoty ve středu jsou naopak nadhodnoceny.

d) Porušení předpokladu konstantnosti rozptylu Případ nekonstantnosti rozptylu může vypadat typicky tak, že rozptyl roste spolu s rostoucím X. Není tedy splněn předpoklad konstantního rozptylu. Typickým chováním grafu předpovězených hodnot proti reziduím je nestejná rozptýlenost (velikost) reziduí pro různě velké předpovězené hodnoty. e) Závislost mezi složkami chybového členu Závislost jsme vyvolali tak, že konkrétní složka chyby E je součtem 0,5 násobku náhodného čísla z normálního rozdělení a 0,5 násobku předchozí chybové složky, jednotlivé složky chybového vektoru E tedy jsou korelované. Z grafu předpovědí je patrné nenáhodné rozložení reziduí, když je jedno reziduum záporné, další po něm v řadě má tendenci být také záporné. f) Porušení předpokladů přítomnost odlehlých pozorování Tuto situaci bychom zahrnuli do porušení předpokladů o rozdělení chybového členu, v datech máme 5 pozorování ( zakroužkované pro přehlednost v pravém dolním rohu). Odlehlé pozorování je pozorování, které je daleko od většiny dat. Klasickým důsledkem přítomnosti odlehlých dat je to, že už i jen málo odlehlých pozorování dokáže velmi vychýlit odhad (na obrázku vidíme změnu směrnice regresní přímky, kdy vlastně tato už jde mimo většinu dat). Podobnou situaci spolu s obrovskými rezidui odlehlých pozorování vidíme na druhém obrázku.

g) Porušení předpokladu normality Chybová složka v posledním příkladu dat s porušenými předpoklady regresního modelu pochází z rovnoměrného rozdělení mezi hodnotami -3 a 3. Jak je vidět z obrázků, toto neovlivňuje odhad parametrů a graf reziduí vypadá na první pohled také dobře. Zkušené oko by odhalilo, že rozvrstvení bodů okolo 0 je rovnoměrné a nikoli normální, ale na první pohled to poznat nemusíme. Graf pro diagnostiku normálního rozdělení K rozpoznání nenormality slouží jiný graf, ve STATISTICA zvaný p-graf nebo v literatuře známý jako normální QQ-graf. Pro úplnost uvedeme ke všem výše popsaným situacím i p-normální graf reziduí (k nalezení ve výsledcích reziduální analýzy). Přesnou definici p-grafu necháme na jindy, pro tuto chvíli nám stačí vědět, co v p-grafu hledat. Čím blíže leží body p-grafu na přímce, tím mají bližší rozdělení normálnímu rozdělení. Rezidua v regresním modelu mají mít normální rozdělení, proto chceme mít body v p-grafu co nejvíce na přímce.

Situace a) Situace b) Situace c) Situace d) Situace e) Situace f ) Situace g) Vidíme, že v případech špatné funkční závislosti a logicky také nesprávného rozdělení chybové složky, je nenormalita reziduí viditelná. U odlehlých pozorování je vidět odchýlení od přímky právě u těchto bodů.

Závěrem Cílem tohoto článku bylo ukázat čtenáři zajímavý pohled na regresní analýzu a její předpoklady prostřednictvím grafu předpovědí vůči reziduím. Věříme, že prezentace výsledků na souborech dat, kde jsou porušeny předpoklady modelu, jsou tou pravou formou, jak přispět k lepšímu pochopení celé problematiky. StatSoft CR s. r. o. Ringhofferova 115/1, 155 21 Praha 5 Zličín t + 420 233 325 006, f + 420 233 324 005 e info@statsoft.cz