LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Podobné dokumenty
Lineární regrese. Komentované řešení pomocí MS Excel

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Testy nezávislosti kardinálních veličin

Korelace. Komentované řešení pomocí MS Excel

Diagnostika regrese pomocí grafu 7krát jinak

Popisná statistika. Komentované řešení pomocí MS Excel

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Regresní analýza 1. Regresní analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Korelační a regresní analýza

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Bodové a intervalové odhady parametrů v regresním modelu

Inovace bakalářského studijního oboru Aplikovaná chemie

Kalibrace a limity její přesnosti

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

Úloha 1: Lineární kalibrace

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

KGG/STG Statistika pro geografy

Semestrální práce. 2. semestr

10. Předpovídání - aplikace regresní úlohy

Jednovýběrové testy. Komentované řešení pomocí MS Excel

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Kalibrace a limity její přesnosti

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Zápočtová práce STATISTIKA I

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

Téma 9: Vícenásobná regrese

Charakteristika datového souboru

Odhad parametrů N(µ, σ 2 )

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Pearsonův korelační koeficient

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

UNIVERZITA PARDUBICE

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

LINEÁRNÍ REGRESE. Lineární regresní model

= = 2368

Plánování experimentu

Tvorba grafů v programu ORIGIN

Kalibrace a limity její přesnosti

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Tomáš Karel LS 2012/2013

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

6. Lineární regresní modely

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Vzorová prezentace do předmětu Statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Kalibrace a limity její přesnosti

Stručný úvod do testování statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

4. Zpracování číselných dat

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

S E M E S T R Á L N Í

KALIBRACE. Definice kalibrace: mezinárodní metrologický slovník (VIM 3)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Semestrální práce. 2. semestr

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Normální (Gaussovo) rozdělení

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

6. Lineární regresní modely

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

12. cvičení z PST. 20. prosince 2017

Odhad parametrů N(µ, σ 2 )

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Návrhy dalších možností statistického zpracování aktualizovaných dat

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Normální (Gaussovo) rozdělení

Národníinformačnístředisko pro podporu jakosti

Transkript:

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná statistika. Úkolem je proložit našimi daty tzv. kalibrační křivku a udělat statistickou analýzu získaných dat.

Ověření předpokladů linearita Vykreslíme si graf dat proložených regresní přímkou: Grafy Bodový graf Proměnné na osu x zvolíme Koncentraci a na osu y Napěťovou odezvu OK OK Z grafu je patrné, že mezi měřenými veličinami skutečně existuje velmi silná lineární závislost, všechny body dosti těsně přiléhají k regresní přímce. Poslední bod je poněkud dále od regresní přímky než body ostatní. Mohlo by to signalizovat odlehlé pozorování. Detailnější pohled přinese analýza reziduí. napěťová odezva (mv) 550 500 450 400 350 300 250 200 150 100 50 Bodový graf z napěťová odezva (mv) proti koncentrace NH3 (mg/l) napěťová odezva (mv) = -5,7233+5,2015*x 0 0 10 20 30 40 50 60 70 80 90 100 koncentrace NH3 (mg/l)

Ověření předpokladů rezidua Abychom posoudili vzájemnou nekorelovanost i neměnný rozptyl náhodných odchylek, vykreslíme bodový graf reziduí: Statistiky Vícenásobná regrese Proměnné nezáv. prom. je Koncentrace a záv. prom. je Napěťová odezva OK OK Reziduální analýza Bodové grafy Předpovědi vs. rezidua Rezidua Předpovězené hodnoty vs. rezidua Závislá proměnná : napěťová odezva (mv) 30 25 20 15 10 5 0-5 -10-15 0 50 100 150 200 250 300 350 400 450 500 Předpov. hodnoty 0,95 Int.spol. Rezidua nevypadají náhodně a nesystematicky. Naopak, s výjimkou posledního měření jsou silně pozitivně korelovaná. Pro tato data tedy nelze považovat předpoklad o nekorelovanosti náhodných složek za splněný. Poslední měření se zjevně vymyká těm ostatním a způsobilo vychýlení regresní přímky, které se následně projevilo korelovaností reziduí. V dalším tedy budeme pracovat s opravenými daty nebudeme uvažovat poslední měření.

Opravená vstupní data Data se jednoduše opraví tak, že se vymaže poslední řádek z tabulky. Provedeme opět analýzu reziduí zcela stejně, jako s původními daty.

Rezidua opravená data 2,0 Předpovězené hodnoty vs. rezidua Závislá proměnná : napěťová odezva (mv) 1,5 Rezidua 1,0 0,5 0,0 Rezidua už vypadají náhodně, nesystematicky. -0,5-1,0-1,5 0 50 100 150 200 250 300 350 400 450 500 Předpov. hodnoty 0,95 Int.spol.

Ověření předpokladů normalita I Pro posouzení normality použijeme Q Q plot. Na histogram máme příliš málo pozorování. 2,0 Normální p-graf reziduí Statistiky Vícenásobná regrese Proměnné nezáv. prom. je Koncentrace a záv. prom. je Napěťová odezva OK OK Reziduální analýza Normální p graf reziduí Očekáv. normál. hodn. 1,5 1,0 0,5 0,0-0,5-1,0-1,5-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 Rezidua

Ověření předpokladů normalita II Je patrný rozdíl mezi skutečnými kvantily (modré body) a těmi gaussovskými (červená čára). Vzhledem k malému počtu pozorování však tento rozdíl nemusí být statisticky významný. V dalším tedy budeme předpokládat normalitu (bez ní bychom nedokázali úlohy vyřešit), a to i vzhledem k tomu, že chyby v měření mívají typicky normální rozdělení. K výsledkům (a jejich použití) však musíme přistupovat opatrně, protože normalitu se nepodařilo jednoznačně prokázat. Očekáv. normál. hodn. Normální p-graf reziduí 2,0 1,5 1,0 0,5 0,0-0,5-1,0-1,5-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 Rezidua

Rovnice kalibrační křivky Rovnici kalibrační křivky y = 0,597 + 5,01 x dostaneme následovně: Statistiky Vícenásobná regrese Proměnné nezáv. prom. je Koncentrace a záv. prom. je Napěťová odezva OK OK Výpočet: Výsledky regrese Hypotézu H 0 : β 1 = 0 nemůžeme na hladině 5 % zamítnout ve prospěch alternativy H 1 : β 1 0, neboť p hodnota testu je 0,516. Jinými slovy, nelze vyloučit, že kalibrační křivka prochází počátkem (ovšem nemůžeme to ani potvrdit). Tím jsme vyřešili úlohu (A). Hypotézu H 0 : β 2 = 0 zamítáme na hladině 5 % ve prospěch alternativy H 1 : β 2 0, neboť p hodnota testu je blízká nule. Tvrzení o nulové směrnici můžeme tedy zamítnout. Tím jsme částečně vyřešili úlohu (E).

Úlohy (A) a (E) intervaly spolehlivosti Interval spolehlivosti pro β 1 lze získat přímo: zvolíme si Rezidua/předpoklady/předpovědi Předpověď závislé proměnné Koncentrace necháme 0 (interval spolehlivosti pro regresní funkci je pro x = 0 roven intervalu spolehlivosti pro parameter β 1 ) OK Vidíme, že 0 1,522; 2,717, proto nulovost β 1 nemůžeme zamítnout, ale ani potvrdit. Interval spolehlivosti pro β 2 ovšem podobným způsobem získat nelze, proto se musí spočítat přímo (viz např. prezentace v Excelu) 4,972; 5,049 0, takže nulovost směrnice β 2 zamítáme na hladině 5 %.

Úloha (C) opravená data Přibližně 95 % měření by mělo ležet v predikčním pásu. 500 Bodový graf z napěťová odezva (mv) proti koncentrace NH3 (mg/l) napěťová odezva (mv)= 0,5974+5,0103*x; 0,95 Int.před. napěťová odezva (mv) 450 400 350 300 250 200 150 100 Grafy Bodový graf Proměnné osa X je koncentrace, osa Y je napěťová odezva Regresní pásy Predikce OK V našem případě je všech 8 měření uvnitř tohoto pásu, což není v rozporu s očekáváním. 50 0 0 10 20 30 40 50 60 70 80 90 100 koncentrace NH3 (mg/l)

Úloha (B) opravená data Vzhledem k předchozí analýze reziduí lze usuzovat, že poslední měření z původních dat je systematicky chybné. Po odebrání tohoto měření jsou už všechna pozorování uvnitř 95 % predikčního pásu z úlohy (C) a rezidua nevykazují žádné výrazně odlehlé hodnoty, takže další systematicky chybné měření už nepředpokládáme.

Úloha (D) opravená data V úloze (C) zvolíme v Regresních pásech místo Predikce Spolehlivost, a aby bylo něco vidět, v Měřítku zvolíme na ose napěťová odezva (mv) 260 258 256 254 252 250 248 246 Bodový graf z napěťová odezva (mv) proti koncentrace NH3 (mg/l) napěťová odezva (mv)= 0,5974+5,0103*x; 0,95 Int.spol. X ručně Minimum 49 a Maximum 51, což jsou meze intervalu 50±0,02x50; Y ručně Minimum 240 a Maximum 260. Jelikož úsečka o rovnici y = 0,597 + 5,01x50, x 49,51, překrývá celý 95% pás spolehlivosti, lze určit koncentraci amoniaku 50 mg/l s přesností větší než 2 % (pás spolehlivosti je výrazně užší než požadovaná přesnost). 244 242 240 49,0 49,2 49,4 49,6 49,8 50,0 50,2 50,4 50,6 50,8 51,0 koncentrace NH3 (mg/l)