Tvorba lineárních regresních modelů při analýze dat

Podobné dokumenty
Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Semestrální práce. 2. semestr

Kalibrace a limity její přesnosti

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Tvorba lineárních regresních modelů

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

Semestrální práce. 2. semestr

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Kalibrace a limity její přesnosti

Tvorba nelineárních regresních modelů v analýze dat

Inovace bakalářského studijního oboru Aplikovaná chemie

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Úloha 1: Lineární kalibrace

Tvorba nelineárních regresních

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice

Kalibrace a limity její přesnosti

Tvorba lineárních regresních modelů při analýze dat

UNIVERZITA PARDUBICE

6. Lineární regresní modely

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Tvorba nelineárních regresních modelů v analýze dat

UNIVERZITA PARDUBICE

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

III. Semestrální práce

Fakulta chemicko technologická Katedra analytické chemie

http: //meloun.upce.cz,

Tvorba nelineárních regresních modelů v analýze dat

Kalibrace a limity její přesnosti

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

6. Lineární regresní modely

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

2.2 Kalibrace a limity její p esnosti

Semestrální práce. 2. semestr

UNIVERZITA PARDUBICE

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE. Semestrální práce z CHEMOMETRE. TOMÁŠ SYROVÝ 4.ročník

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Statistická analýza jednorozměrných dat

LINEÁRNÍ REGRESE. Lineární regresní model

UNIVERZITA PARDUBICE

S E M E S T R Á L N Í

Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Semestrální práce str. 1. Semestrální práce. 2.1 Tvorba lineárních regresních modelů při analýze dat. 2.3 Kalibrace a limity její přesnosti

Univerzita Pardubice Fakulta chemicko-technologická. Licenční studium Statistické zpracování dat

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

Licenční studium Galileo: Statistické zpracování dat. Kalibrace a limity její přesnosti. Semestrální práce

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Aproximace křivek a vyhlazování křivek

Plánování experimentu

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Statistická analýza jednorozměrných dat

Semestrální práce z CHEMOMETRIE I Statistické zpracování jednorozměrných dat

PYTHAGORAS Statistické zpracování experimentálních dat

6. Lineární regresní modely

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Lineární regrese. Komentované řešení pomocí MS Excel

Úlohy. Kompendium 2012, Úloha B8.01a, str. 785, Model y = P1 * exp( P2/(B801x + P3)

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

6. Lineární regresní modely

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

Regresní analýza. Eva Jarošová

Analýza rozptylu ANOVA

Posouzení linearity kalibrační závislosti

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

2.1 Tvorba lineárních regresních

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Statistická analýza. jednorozměrných dat

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI. Předmě t KALIBRACE A LIMITY JEJÍ PŘ ESNOSTI

Menu: QCExpert Nelineární regrese Modul nelineární regrese slouží pro tvorbu a analýzu explicitních nelineárních regresních modelů v obecném tvaru

Korelační a regresní analýza

AVDAT Geometrie metody nejmenších čtverců

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Ilustrační příklad odhadu LRM v SW Gretl

Transkript:

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium GALILEO Tvorba lineárních regresních modelů při analýze dat Seminární práce Monika Vejpustková leden 2016

OBSAH Úloha 1. Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu... 3 1.1 Lineární model pro plochu Přebuz... 4 1.2 Lineární model pro plochu Studenec... 10 1.3 Porovnání regresních přímek... 16 Úloha 2. Určení stupně polynomu... 17 2.1 Určení stupně polynomu MNČ... 17 2.2 Odhad parametrů pro vybraný polynom 3. stupně metodou racionálních hodností RH 23 Úloha 3. Validizace nové metody... 25 Úloha 4. Vícerozměrný lineární regresní model... 31 2

S 2.r (mg/kg) Semestrální práce Úloha 1. Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu Zadání: Na plochách monitoringu zdravotního stavu smrkových porostů v oblasti Krušných hor jsou od roku 1997 sledovány obsahy síry v 1. a 2. ročníku jehličí. Byly vybrány dvě plochy v západním Krušnohoří Přebuz a Studenec, na kterých byla analyzována závislost obsahu síry ve 2. ročníku jehličí na obsahu síry v 1. ročníku jehličí. Závislost byla na obou plochách popsána regresní přímkou. Porovnejte výsledné jednoduché lineární regresní modely, a to včetně testování úseku a směrnice, s vyšetřením vlivných bodů a jejich event. odstraněním, posouzením míry spolehlivosti navrženého modelu. Proveďte také test shodnosti obou přímek, test jejich paralelity a společného úseku. Data: obsah síry (mg.kg -1 ) v 1. a 2. ročníku jehličí smrku na plochách Přebuz a Studenec Přebuz Studenec Rok S 1.roč S 2.roč S 1.roč S 2.roč 1997 1333 1767 1283 1526 1998 1112 1230 1028 1094 1999 905 368 1111 1224 2000 1211 1397 1524 1813 2001 982 1017 886 970 2002 934 1159 886 1024 2003 1069 1089 1016 1150 2004 1010 1100 1310 1340 2005 1040 1100 1500 1560 2006 1270 1370 1110 1430 2007 1150 1390 1070 1480 2008 1150 1180 1260 1370 2009 1200 1250 1270 1470 2010 1100 1130 1200 1290 2011 1540 1640 1540 1680 2012 1130 1110 1230 1270 2013 990 1110 1140 1260 2000 1800 1600 1400 1200 1000 800 600 400 200 0 0 500 1000 1500 2000 S 1.r (mg/kg) Přebuz Studenec Lineární (Přebuz) Lineární (Studenec) 3

1.1 Lineární model pro plochu Přebuz Řešení (ADSTAT) Návrh modelu: regresní přímka y=β 0 + β 1.x přičemž y S 2.roč x S 1.roč Předběžná analýza dat Proměnná Průměr Sm. odch Párový korel. koef Spočtená hlad. významnosti y 1.2004E+03 2.9617E+02 1.0000 ----- x 1.1251E+03 1.5787E+02 0.8107 0.000 Odhad parametrů Parametr Odhad Směrodat. Test H0: b[j] = 0 vs. HA: b[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. b 0-5.1067E+02 3.2205E+02-1.5857E+00 akceptována 0.134 b 1 1.5209E+00 2.8364E-01 5.3621E+00 zamítnuta 0.000 Pro úsek regresní přímky byla akceptována H 0, je proto možné jej položit rovný 0. nule. Základní statistické charakteristiky Vícenásobný korelační koeficient, R Koeficient determinace, R 2 Predikovaný korelační koeficient, Rp 2 Střední kvadratická chyba predikce, MEP Akaikeho inf. kritérium, AIC 8.1065E-01 6.5716E-01 6.7146E-01 4.5337E+04 1.7826E+02 Regresní diagnostika 1. Data a) analýza klasických reziduí Graf regresního modelu Analýza klasických reziduí Graf regresního modelu ukazuje na existenci jednoho odlehlého bodu (vlevo dole) a dvou extrémů (vpravo nahoře). 4

Reziduální součet čtverců, RSC Průměr abs. hodnot reziduí, M Průměr rel. reziduí, Mer Odhad reziduálního rozptylu, s 2 (e) Odhad směr. odch. reziduí, s(e) Odhad šikmosti reziduí, g 1 (e) Odhad špičatosti reziduí, g 2 (e) 4.8118E+05 1.1990E+02 1.4898E+01 3.2079E+04 1.7911E+02-1.1718E+00 5.2416E+00 Odhady šikmosti a špičatosti indikují, že rezidua nemají normální rozdělení b) analýza ostatních reziduí Odlehlé body a extrémy Jackknife rezidua 3 Predikované reziduum Diagonální prvky 15 Zobec. diagon. prvky 3, 15 Cookova vzdálenost 1, 3, 6, 15 Atkinsonova vzdálenost 1, 3, 15 Vliv na predikci 1, 3, 15 Věrohodnostní vzdálenost LD(b) i Věrohodnostní vzdálenost LD(s 2 ) i 3 Věrohodnostní vzdálenost LD(b,s 2 ) i 3 c) grafy vlivných bodů Graf predikovaných reziduí Pregibonův graf 5

Williamsův graf McCullohův-Meeterův graf L-R graf d) indexové grafy Andrewsův graf Graf normalizovaných reziduí 6

Graf prvků H-projekční matice e) rankitové grafy Rankitový graf normovaných reziduí Rankitový Andrewsův graf reziduí Rankitový graf predikovaných reziduí Rankitový graf jackknife reziduí Z výše prezentovaných diagnostických grafů vyplývá, že v datech je jeden odlehlý bod č. 3 a jeden extrém č. 15. 7

2. Metoda Testování regresního tripletu Fisher-Snedocorův test významnosti regrese, F : 2.8752E+01 Tabulkový kvantil, F(1-alpha,m-1,n-m) : 4.5431E+00 Závěr: Navržený model je přijat jako významný. Spočtená hladina významnosti : 0.000 Scottovo kriterium multikolinearity, M Závěr: Navržený model je korektní : 3.0889E-16 Cook-Weisbergův test heteroskedasticity, Sf : 1.0329E+02 Tabulkový kvantil, Chi^2(1-alpha,1) : 3.8415E+00 Závěr: Rezidua vykazují heteroskedasticitu. Spočtená hladina významnosti : 0.000 Jarque-Berraův test normality reziduí, L(e) : 7.4495E+00 Tabulkový kvantil, Chi^2(1-alpha,2) : 5.9915E+00 Závěr: Normalita není přijata. Spočtená hladina významnosti : 0.024 Waldův test autokorelace, Wa : 1.1945E-01 Tabulkový kvantil, Chi^2(1-alpha,1) : 3.8415E+00 Závěr: Rezidua nejsou autokorelována. Spočtená hladina významnosti : 0.730 Znamékový test, Dt : 1.4789E-02 Tabulkový kvantil, N(1-alpha/2) : 1.6449E+00 Závěr: Rezidua nevykazují trend. Spočtená hladina významnosti : 0.494 Testy regresního tripletu ukazují, (homoskedasticita a normalita reziduí). že některé předpoklady MNČ nejsou splněny Graf autokorelace Graf heteroskedasticity 8

Graf autokorelace tvoří mrak bodů bez výrazné orientace, tzn. že v reziduích není autokorelace. Body v grafu heteroskedasticity tvoří klín, rozptyl reziduí není možno pokládat za konstantní. Konstrukce zpřesněného modelu V původním odhadu parametrů byla pro úsek akceptována nulová hypotéza a byl proto z výpočtu zpřesněného modelu vypuštěn. Provedením kritiky dat v rámci regresní diagnostiky byl odhalen odlehlý bod č. 3. Po jeho odstranění byl nalezen nový odhad parametru b 1 : Odhad parametrů zpřesněného modelu Parametr Odhad Směrodat. Test H0: b[j] = 0 vs. HA: b[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. b 1 1.1012E+00 2.3948E-02 4.5982E+01 zamítnuta 0.000 Zpřesněný model má tvar y = 1.101(0.0239) x Základní statistické charakteristiky zpřesněného modelu (pro srovnání uvedeny i hodnoty pro původní model) zpřesněný model původní model Vícenásobný korelační koeficient, R 8.5324E-01 8.1065E-01 Koeficient determinace, R 2 7.2801E-01 6.5716E-01 Predikovaný korelační koeficient, Rp 2 8.2731E-01 6.7146E-01 Střední kvadratická chyba predikce, MEP 1.3161E+04 4.5337E+04 Akaikeho inf. kritérium, AIC 1.5138E+02 1.7826E+02 Z porovnání statistických charakteristik původního a nového modelu vyplývá, že odstraněním odlehlého bodu č. 3 došlo k výraznému zpřesnění modelu zvýšil se koeficient determinace, střední kvadratická chyba predikce a Akaikeho inf. kritérium výrazně poklesly. Dle Jarque-Berraova testu normalita reziduí není přijata, také Cook-Weisbergův test stále ukazuje na heteroskedasticitu v datech. Bude proto použita metoda vážených nejmenších čtverců, která by měla heteroskedasticitu kompenzovat. Zavedením statistické váhy wi = 1/y i 2 dostáváme tento nový odhad parametru b 1 Parametr Odhad Směrodat. Test H0: b[j] = 0 vs. HA: b[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. b 1 1.0857E+00 2.1181E-02 5.1259E+01 zamítnuta 0.000 Opravený model má tvar y = 1.086(0.0212) x Základní statistické charakteristiky opraveného modelu (pro srovnání uvedeny i hodnoty pro zpřesněný a původní model) opravený model zpřesněný model původní model Vícenásobný korelační koeficient, R 8.4024E-01 8.5545E-01 8.1065E-01 Koeficient determinace, R 2 7.0600E-01 7.3180E-01 6.5716E-01 Predikovaný korelační koeficient, Rp 2 8.1928E-01 7.7678E-01 6.7146E-01 Střední kvadratická chyba predikce, MEP 9.3285E+03 1.6541E+04 4.5337E+04 Akaikeho inf. kritérium, AIC 1.4637E+02 1.5316E+02 1.7826E+02 9

Odhady lze považovat za lepší, neboť poklesla hodnota MEP i AIC. Závěr: Prokázaný model závislosti mezi obsahem síry v 1. a 2. ročníku jehličí na ploše Přebuz má tvar y = 1.086(0.0212) x Interval spolehlivosti parametru b 1 1.2 Lineární model pro plochu Studenec Návrh modelu: regresní přímka y=β 0 + β 1.x přičemž y S 2.roč x S 1.roč Předběžná analýza dat Proměnná Průměr Sm. odch Párový korel. koef Spočtená hlad. významnosti y 1.3501E+03 2.2731E+02 1.0000 ----- x 1.1979E+03 1.9938E+02 0.8839 0.000 Odhad parametrů Parametr Odhad Směrodat. Test H0: b[j] = 0 vs. HA: b[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. b 0 1.4293E+02 1.6705E+02 8.5559E-01 akceptována 0.406 b 1 1.0077E+00 1.3767E-01 7.3196E+00 zamítnuta 0.000 Základní statistické charakteristiky Vícenásobný korelační koeficient, R Koeficient determinace, R 2 Predikovaný korelační koeficient, Rp 2 Střední kvadratická chyba predikce, MEP Akaikeho inf. kritérium, AIC 8.8389E-01 7.8127E-01 8.5150E-01 1.3371E+04 1.6163E+02 Regresní diagnostika 1. Data a) analýza klasických reziduí 10

Graf regresního modelu Analýza klasických reziduí Reziduální součet čtverců, RSC Průměr abs. hodnot reziduí, M Průměr rel. reziduí, Mer Odhad reziduálního rozptylu, s 2 (e) Odhad směr. odch. reziduí, s(e) odhad šikmosti reziduí, g 1 (e) Odhad špičatosti reziduí, g 2 (e) 1.8083E+05 8.2241E+01 5.9719E+00 1.2056E+04 1.0980E+02 1.0692E+00 3.2493E+00 b) analýza ostatních reziduí Odlehlé body a extrémy číslo bodu Jackknife rezidua 11 Predikované reziduum Diagonální prvky 15 Zobec. diagon. prvky 11 Cookova vzdálenost 4, 9, 11 Atkinsonova vzdálenost 4, 11 Vliv na predikci 4, 11 Věrohodnostní vzdálenost LD(b) i Věrohodnostní vzdálenost LD(s 2 ) i Věrohodnostní vzdálenost LD(b,s 2 ) i 11

c) grafy vlivných bodů Graf predikovaných reziduí Pregibonův graf Williamsův graf McCullohův-Meeterův graf L-R graf 12

d) indexové grafy Andrewsův graf Graf normalizovaných reziduí Graf prvků H-projekční matice e) rankitové grafy Rankitový graf normovaných reziduí Rankitový Andrewsův graf reziduí 13

Rankitový graf predikovaných reziduí Rankitový graf jackknife reziduí Analýza reziduí i všechny diagnostické grafy jasně ukazují na odlehlý bod č. 11. 2. Metoda Testování regresního tripletu Fisher-Snedocorův test významnosti regrese, F : 5.3577E+01 Tabulkový kvantil, F(1-alpha,m-1,n-m) : 4.5431E+00 Závěr: Navržený model je přijat jako významný. Spočtená hladina významnosti : 0.000 Scottovo kriterium multikolinearity, M Závěr: Navržený model je korektní :-1.3263E-16 Cook-Weisbergův test heteroskedasticity, Sf : 3.7445E+00 Tabulkový kvantil, Chi^2(1-alpha,1) : 3.8415E+00 Závěr: Rezidua vykazují homoskedasticitu. Spočtená hladina významnosti : 0.053 Jarque-Berraův test normality reziduí, L(e) : 3.2831E+00 Tabulkový kvantil, Chi^2(1-alpha,2) : 5.9915E+00 Závěr: Normalita je přijata. Spočtená hladina významnosti : 0.194 Waldův test autokorelace, Wa : 1.0545E-01 Tabulkový kvantil, Chi^2(1-alpha,1) : 3.8415E+00 Závěr: Rezidua nejsou autokorelována. Spočtená hladina významnosti : 0.745 Znamékový test, Dt : 2.6984E-01 Tabulkový kvantil, N(1-alpha/2) : 1.6449E+00 Závěr: Rezidua nevykazují trend. Spočtená hladina významnosti : 0.394 Testy regresního tripletu prokazují splnění předpokladů MNČ. 14

Graf autokorelace Graf heteroskedasticity Graf autokorelace tvoří mrak bodů bez výrazné orientace, tzn. že v reziduích není autokorelace. Body v grafu heteroskedasticity netvoří klín, rozptyl reziduí je možno pokládat za konstantní. Konstrukce zpřesněného modelu V prvním odhadu parametrů byla pro úsek akceptována nulová hypotéza a byl proto z výpočtu zpřesněného modelu vypuštěn. Provedením kritiky dat v rámci regresní diagnostiky byl odhalen odlehlý bod č. 11. Po jeho odstranění byl nalezen nový odhad parametru b 1 : Odhad parametrů zpřesněného modelu Parametr Odhad Směrodat. Test H0: b[j] = 0 vs. HA: b[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. b 1 1.1116E+00 1.7448E-02 6.3709E+01 zamítnuta 0.000 Zpřesněný model má tvar y = 1.112(0.017) x Základní statistické charakteristiky zpřesněného modelu zpřesněný model původní model Vícenásobný korelační koeficient, R 9.3013E-01 8.8389E-01 Koeficient determinace, R 2 8.6515E-01 7.8127E-01 Predikovaný korelační koeficient, Rp 2 9.1903E-01 8.5150E-01 Střední kvadratická chyba predikce, MEP 7.8543E+03 1.3371E+04 Akaikeho inf. kritérium, AIC 1.4323E+02 1.6163E+02 Odstraněním odlehlého bodu č. 11 došlo k zpřesnění modelu zvýšil se vícenásobný korelační koeficient i koeficient determinace, naopak střední kvadratická chyba predikce a Akaikeho inf. kritérium poklesly. Závěr: Prokázaný model závislosti mezi obsahem síry v 1. a 2. ročníku jehličí na ploše Studenec má tvar y = 1.112(0.017) x Interval spolehlivosti parametru b 1 15

Semestrální práce 1.3 Porovnání regresních přímek a) Test homoskedasticity Při porovnání dvou skupin bodů lze testovat shodu dvou rozptylů pomocí Fisher-Snedecorova testu: Testujeme nulovou hypotézu H0: proti alternativní HA: Odhad reziduálního rozptylu pro regresní přímku zpřesněného modelu pro jednotlivé plochy: Přebuz: 8847.4 Studenec: 7268.8 F F1- (n1-1, n2-1) = F1-0.05 (15,15) = 2.40 Závěr: F2 < Fkrit. H0 je přijata, tj. rozptyly obou skupin jsou shodné b) Test shody regresních přímek dle Chowové Testujeme nulovou hypotézu H0: β1 = β2 proti alternativní hypotéze HA: β1 β2 Kde RSC1 je reziduální součet čtverců pro model Přebuz 181500 (zpřesněný model po odstranění odlehlého bodu č.3) RSC2 je reziduální součet čtverců pro model Studenec 109070 (zpřesněný model po odstranění odlehlého bodu č. 11) RSC je reziduální součet čtverců pro sloučený model 291770 Vzhledem k výše prokázané homoskedasticitě porovnáváme Fc s F1- (m,n-2m) F1- (m,n-2m) = F1-0.05(1,30) = 4.17 Fc < Fkrit. H0 je přijata, tj. obě regresní přímky jsou shodné Závěr: Bylo prokázáno, že obě regresní přímky jsou shodné, což znamená, že závislost obsahu síry v 2. ročníku jehličí na obsahu síry v 1. ročníku jehličí je na obou plochách shodná. 16

H (m) Semestrální práce Úloha 2. Určení stupně polynomu Zadání: V rámci pravidelného dendrometrického šetření byly na ploše Vojířov změřeny výčetní tloušťky a výšky všech stromů. Nalezněte vhodný polynom, který bude nejlépe popisovat závislost výšky stromu na jeho tloušťce (výšková křivka). Použijte metodu nejmenších čtverců a metodu racionálních hodností. Výsledky obou metod porovnejte. Testujte statistické významnosti nalezených parametrů, vyšetřete regresní triplet metodou regresní diagnostiky, komentujte všechny užité diagnostiky a statistiky. Data: výčetní tloušťka D (cm), výška H (m) D (cm) 6,3 6,6 6,7 6,9 7,0 7,5 8,0 8,3 8,3 9,1 9,2 9,4 9,5 10,2 10,6 11,8 12,0 12,1 H (m) 4,2 6,5 9,6 11,0 8,7 11,2 8,0 9,9 8,8 10,0 10,5 9,4 13,0 11,8 11,1 17,2 18,8 10,0 D (cm) 12,7 12,9 13,4 13,6 13,7 14,8 16,5 18,9 22,5 23,6 24,7 25,6 27,2 27,5 28,1 29,8 31,5 32,5 H (m) 19,0 13,9 15,2 14,8 15,6 19,7 20,5 22,7 30,0 27,6 30,6 30,5 27,8 32,2 29,5 32,1 30,5 32,5 D (cm) 33,9 33,9 34,5 35,1 35,5 35,5 37,8 37,9 38,3 38,5 38,5 38,5 39,0 39,9 41,0 42,1 43,4 43,4 H (m) 34,3 33,8 31,7 35,9 32,0 30,0 35,2 32,5 36,0 31,5 32,3 31,4 31,9 34,7 32,2 34,6 34,8 33,9 D (cm) 45,7 50,8 51,7 52,1 54,2 H (m) 35,1 34,7 35,4 34,2 34,8 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00,00,00 10,00 20,00 30,00 40,00 50,00 60,00 D (cm) Bodový graf vynesený z naměřených hodnot výšek a tlouštěk stromů 2.1 Určení stupně polynomu MNČ Řešení provedeno v programu QC Expert Návrh modelu Nejprve je nutné spočítat regresní statistiky pro různé stupně polynomu. Vhodné je i okulární posouzení proložení experimentálních dat zvolenou křivkou. 17

Regresní křivka - polynom 2.stupně Regresní křivka - polynom 3.stupně Regresní křivka - polynom 4.stupně Regresní křivka - polynom 5.stupně Statistické charakteristiky regrese pro různé stupně polynomu Stupeň polynomu 2 3 4 5 Charakteristiky Vícenásobný korelační koeficient, R 0,98166 0,98312 0,98413 0,98492 Koeficient determinace, R 2 0,96365 0,96653 0,96851 0,97007 Predikovaný korelační koeficient, Rp 2 0,92176 0,92619 0,92707 0,92878 Střední kvadratická chyba predikce, MEP 4,36861 4,11628 4,06621 3,96922 Akaikeho inf. kritérium, AIC 87,4625 84,5997 82,9927 82,0079 Významnost parametrů regresní křivky Stupeň polynomu Parametr Abs. člen D D^2 D^3 D^4 D^5 2 3 4 5 Významný Významný Nevýznamný Nevýznamný Významný Významný Nevýznamný Nevýznamný Významný Významný Nevýznamný Nevýznamný Významný Nevýznamný Nevýznamný Nevýznamný Nevýznamný Nevýznamný Na základě okulárního posouzení regresních křivek vychází jako nejlepší polynom 2. nebo 3. stupně, pro které jsou konfidenční pásy úzké a kopírují regresní křivku. Z tabulky statistických charakteristik regrese je patrné, že se stoupajícím stupněm polynomu rostou 18

hodnoty R, R 2 a Rp 2, MEP a AIC klesají. Protože však pro polynom 4. a 5. stupně vychází všechny parametry jako statisticky nevýznamné, lze za optimální prohlásit polynom 3. stupně, který má všechny parametry významné a zároveň MEP a AIC nižší než polynom 2. stupně. Vybraný model má tvar H Charakteristika proměnných Proměnná Průměr Směr.Odch. Kor.vs.Y Významnost D (cm) 25,25762712 14,65874111 0,929985423 0 D (cm)^2 849,1844068 805,9642472 0,840740746 0 D (cm)^3 32791,33217 40055,16246 0,737722893 2,644551245E-011 Odhad parametrů Proměnná Odhad Směr.odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs -6,5642 1,9752 Významný 0,00158-10,5227-2,6057 D (cm) 2,2930 0,2860 Významný 8,20210E-11 1,7198 2,8662 D (cm)^2-0,0424 0,0108 Významný 0,00024-0,0641-0,0207 D (cm)^3 0,0003 0,0001 Významný 0,03404 2,0347E-05 0,0005 Základní statistické charakteristiky Vícenásobný korelační koeficient, R 0,9831224078 Koeficient determinace, R 2 0,9665296687 Predikovaný korelační koeficient, Rp 2 0,926191712 Střední kvadratická chyba predikce, MEP 4,116278646 Akaikeho inf. kritérium, AIC 84,59971616 Regresní diagnostika 1. Data a) analýza klasických reziduí Graf residua vs. predikce Graf ukazuj, že rezidua tvoří mrak bodů a není zde přítomný žádný trend. Je zde patrný jeden odlehlý bod. 19

Reziduální součet čtverců : 216,1208448 Průměr absolutních reziduí : 1,589270291 Reziduální směr. odchylka : 1,982289057 Reziduální rozptyl : 3,929469905 Šikmost reziduí : 0,001497013819 Špičatost reziduí : 2,69148141 b) analýza ostatních reziduí Odlehlé body a extrémy Jackknife rezidua Predikované reziduum Diagonální prvky 56, 57, 58, 59 Zobec. diagon. prvky 18, 57, 58, 59 Cookova vzdálenost Atkinsonova vzdálenost 4, 18 Vliv na predikci 4 Věrohodnostní vzdálenost LD(b) i Věrohodnostní vzdálenost LD(s 2 ) i Věrohodnostní vzdálenost LD(b,s 2 ) i Analýza reziduí indikuje odlehlé body 4, 18 a extrémy 56, 57, 58, 59. c) grafy vlivných bodů Pregibonův graf Williamsův graf Grafy vlivných bodů indikují odlehlý bod 18 a extrémy 56, 57, 58, 59 d) rankitové grafy Q-Q normalizovaná rezidua Q-Q Jack-Knife rezidua Rankitové grafy indikují odlehlý bod 18. 20

2. Metoda Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 529,4154533 Kvantil F (1-alfa, m-1, n-m) : 2,772536908 Pravděpodobnost : 1,581227232E-040 Závěr : Model je významný Scottovo kritérium multikolinearity Hodnota kritéria SC : 0,9137718648 Závěr : Model je nekorektní! Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 2,344592589 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,1257184259 Závěr : Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 0,2487139492 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,883064553 Závěr : Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 0,8996873075 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,3428655693 Závěr : Autokorelace je nevýznamná Durbin-Watsonův test autokorelace Hodnota kritéria DW : -1 Kritické hodnoty DW 1,41 Závěr : Rezidua nejsou autokorelována Znaménkový test reziduí Hodnota kritéria Sg : 1,05314134 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,2922762184 Závěr : V reziduích není trend. Statistické testy ukazují, že předpoklady MNČ jsou splněny. Výjimkou je Scottovo kritérium multikolinearity, vysoká hodnota multikolinearity je však pro polynomy typická. 21

Graf autokorelace Graf heteroskedasticity Graf autokorelace vykazuje přibližně mrak bodů bez výrazné orientace. Graf heteroskedasticity neukazuje mrak bodů ve tvaru klínu, což indikuje homoskedasticitu. Konstrukce zpřesněného modelu Na základě analýzy reziduí a diagnostických grafů byl identifikován odlehlý bod č. 18. Po jeho odstranění byly nalezeny nové odhady parametrů pro zpřesněný model. Odhad parametrů Proměnná Odhad Směr.Odch. Závěr Pravděpodob. Spodní mez Horní mez Abs -6,8387 1,848 Významný 0,0005-10,5446-3,1328 D (cm) 2,3691 0,2686 Významný 4,7621E-012 1,83070 2,9075 D (cm)^2-0,0456 0,0102 Významný 3,7831E-005-0,0661-0,0252 D (cm)^3 0,0003 0,0001 Významný 0,011 7,0878E-05 0,0005 Základní statistické charakteristiky zpřesněný model původní model Vícenásobný korelační koeficient, R 0,9850879735 0,9831224078 Koeficient determinace, R 2 0,9703983156 0,9665296687 Predikovaný korelační koeficient, Rp 2 0,9342308506 0,926191712 Střední kvadratická chyba predikce, MEP 3,610713326 4,116278646 Akaikeho inf. kritérium, AIC 75,38843808 84,59971616 Všechny parametry nového modelu vychází jako významné, nový model vykazuje lepší statistické charakteristiky, všechny předpoklady MNČ jsou splněny. Závěr: Nalezený nejlepší model závislosti výšky stromu na jeho výčetní tloušťce má pro plochu Vojířov tvar y = -6.8387(1.848) + 2.3691(0.2686).D 0,0456(0,0102).D 2 + 0,0003(0,0001).D 3 22

2.2 Odhad parametrů pro vybraný polynom 3. stupně metodou racionálních hodností RH Řešení provedeno v programu QC Expert Metoda RH se používá v případě, kdy model vykazuje multikolinearitu (u vícerozměrných modelů) a ne všechny parametry jsou vyhodnoceny jako významné. Podle Silenova pravidla má být každý parametr větší než trojnásobek jeho směrodatné odchylky, jinak je parametr statisticky nevýznamný utápí ve svém šumu. V metodě RH lze nastavit omezení na vlastní čísla a zpřesnit odhad parametrů. V našem případě byl MNČ za optimální vybrán polynom 3. stupně. Všechny parametry vychází jako statisticky významné (neutápí se v šumu). Identifikovaná multikolinearita je pro polynomy typická. MNČ je v tomto případě korektní metodou. Z důvodu srovnání však bude proveden odhad parametrů modelu též metodou RH. Základní statistické charakteristiky modelu a významnost parametrů pro různé hodnoty omezení na vlastní čísla P P MEP AIC R 2 Nevýz. param. 10-6 65,00341349 234,9552631 0,5364179373 b 0 10-5 3,610746907 75,38846323 0,9703983028-10 -4 3,611362117 75,39201151 0,9703964918-10 -3 3,643140218 75,76286894 0,9702065977 - Minimální MEP vychází pro P = 10-5. Je možné dále interpolovat mezi hodnotami P 10-5 a 10-6, kde se pravděpodobně nachází minimum, a tak dále zpřesňovat odhad modelu. P P MEP AIC R 2 Nevýz. param. 0,00001 10-6 65,00341349 234,9552631 0,5364179373 b 0 0,00002 3,610714287 75,3884381 0,9703983156-0,00003 3,610718168 75,38843866 0,9703983153-0,00005 3,610726099 75,38844198 0,9703983136-0,00009 3,610742633 75,3884575 0,9703983090-0,0001 10-5 3,610746907 75,38846323 0,9703983028-0,00011 3,610751238 75,3884697 0,9703982995 - Je možné dál pokračovat v iteračním výpočtu mezi hodnotami P 10-6 a 20-6. Z předchozí tabulky je však patrné, že hodnoty MEP se mění jen velmi málo, proto je možné výpočet ukončit a konstatovat, že nejnižší hodnoty bylo dosaženo při hodnotě omezení P = 20-6. 23

Parametry modelu stanovené metodou RH pro P = 0,00002 Proměnná Odhad Směr.odch. Závěr Pravděpodob. Spodní mez Horní mez Abs -6,8387 1,8484 Významný 0,000507-10,5446-3,1328 D (cm) 2,3691 0,2686 Významný 4,762190E-012 1,8307 2,9075 D (cm)^2-0,0457 0,0102 Významný 3,783372E-005-0,0661-0,0253 D (cm)^3 0,0003 0,0001 Významný 0,010996 7,087E-05 0,0005 Porovnání charakteristik modelů stanovených MNČ a RH MNČ RH Vícenásobný korelační koeficient, R 0,9850879735 0,9850879735 Koeficient determinace, R 2 0,9703983156 0,9703983156 Predikovaný korelační koeficient, Rp 2 0,9342308506 0,9342308334 Střední kvadratická chyba predikce, MEP 3,610713326 3,610714287 Akaikeho inf. kritérium, AIC 75,38843808 75,3884381 MNČ: y = -6.8387(1.848) + 2.3691(0.2686).D 0,0456(0.0102).D 2 + 0,0003(0,0001).D 3 RH: y = -6.8387(1.848) + 2.3691(0.2686).D 0,0456(0.0102).D 2 + 0,0003(0,0001).D 3 Závěr: Obě metody v tomto případě dávají stejné výsledky a identifikované nejlepší modely se neliší. 24

Úloha 3. Validizace nové metody Zadání: Starý typ výškoměru zn. Suunto byl nahrazen novým výškoměrem zn. Vertex. Pro validizaci metody byl změřen soubor 38 stromů oběma typy výškoměrů. Rozhodněte, zda při měření novým typem výškoměru obdržíme stejné výsledky jako při měření starším typem. Data: údaje o měřených výškách výškoměrem Suunto (x) a výškoměrem Vertex (y) Suunto (x) Vertex (y) 27,2 25,7 32,5 31,6 32,8 32,1 30,5 29,6 29,8 30,0 26,8 27,2 31,0 29,7 32,5 30,6 31,3 30,5 33,1 32,4 30,5 28,7 33,0 29,0 21,0 19,5 25,6 25,9 21,0 21,1 19,3 19,0 26,0 25,2 23,0 23,2 21,3 20,4 Suunto (x) Vertex (y) 22,5 21,8 25,0 24,3 13,5 13,9 12,4 12,8 13,7 13,4 12,5 12,5 13,7 13,1 14,5 14,0 13,3 12,7 13,3 13,3 13,8 13,1 12,8 13,2 12,5 12,6 33,3 32,7 28,8 26,9 31,5 28,9 32,3 28,3 34,3 32,5 36,3 34,0 Řešení v programu QC Expert Návrh modelu : y = β 0 + β 1 x Testujeme nulovou hypotézu H 0 : β 0 = 0 a β 1 = 1 proti alternativní hypotéze H A : β 0 0 a β 1 1. Charakteristika proměnných Proměnná Průměr Směr.Odch. Kor.vs.Y Významnost Suunto 24,1434 8,124048144 0,9931804501 0 Odhad parametrů Proměnná Odhad Směr.odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs 1,0862 0,45791 Významný 0,0232 0,1575 2,0150 Suunto 0,9201 0,01801 Významný 0 0,8836 0,9566 25

Oba parametry úsek i směrnice vychází jako statisticky významné. Odhad úseku se však utápí v šumu: b 0 < 3.s b0 (viz Silenovo pravidlo). Graf regresní křivky Základní statistické charakteristiky Vícenásobný korelační koeficient, R 0,9931804501 Koeficient determinace, R 2 0,9864074065 Predikovaný korelační koeficient, Rp 2 0,9701591344 Střední kvadratická chyba predikce, MEP 0,8291097584 Akaikeho inf. kritérium, AIC -6,949867074 Regresní diagnostika 1. Data a) analýza klasických reziduí Graf residua vs. predikce Graf ukazuje, že rezidua tvoří mrak bodů a není zde přítomný žádný trend. Mrak má tvar klínu, což indikuje heteroskedasticitu. V dolní části grafu jsou patrné dva odlehlé body. Reziduální součet čtverců : 28,48654194 Průměr absolutních reziduí : 0,6452026459 Reziduální směr. odchylka : 0,889546419 Reziduální rozptyl : 0,7912928316 Šikmost reziduí : 0,6458109264 Špičatost reziduí : 4,343280286 26

b) analýza ostatních reziduí Odlehlé body a extrémy Jackknife rezidua Predikované reziduum Diagonální prvky Zobec. diagon. prvky 12, 36 Cookova vzdálenost Atkinsonova vzdálenost 12, 36 Andrews-Pregibon st. 12, 36 Vliv na predikci Věrohodnostní vzdálenost LD(b) i Věrohodnostní vzdálenost LD(s 2 ) i Věrohodnostní vzdálenost LD(b,s 2 ) i Analýza reziduí indikuje odlehlé body 12 a 36. c) grafy vlivných bodů Williamsův graf Věrohodnostní vzdálenosti Grafy vlivných bodů indikují odlehlé body 12 a 36. d) rankitové grafy Q-Q normalizovaná rezidua Q-Q Jack-Knife rezidua Rankitové grafy indikují odlehlé body 12 a 36. 27

2. Metoda Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 2612,501182 Kvantil F (1-alfa, m-1, n-m) : 4,113165277 Pravděpodobnost : 3,334492019E-035 Závěr : Model je významný Scottovo kritérium multikolinearity Hodnota kritéria SC : 0,3323768372 Závěr : Model vykazuje multikolinearitu! Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 7,103034312 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,007695356914 Závěr : Rezidua vykazují heteroskedasticitu! Jarque-Berrův test normality Hodnota kritéria JB : 6,947105585 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,03100667446 Závěr : Rezidua nemají normální rozdělení! Waldův test autokorelace Hodnota kritéria WA : 5,72984435 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,01667896087 Závěr : Autokorelace je významná Durbin-Watsonův test autokorelace Hodnota kritéria DW : -1 Kritické hodnoty DW 1,37 Závěr : Rezidua jsou pozitivně autokorelována! Znaménkový test reziduí Hodnota kritéria Sg : 2,092552241 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,03638914366 Závěr : V reziduích je trend! Statistické testy ukazují, že není splněna většina předpokladů MNČ: homoskedasticita reziduí, normalita reziduí, autokorelace, přítomnost trendu v reziduích. 28

Graf autokorelace Graf heteroskedasticity V grafu autokorelace je patrný vzestupný trend v mraku bodů. Body v grafu heteroskedasticity tvoří klín typický pro nekonstantní rozptyl. Konstrukce zpřesněného modelu Na základě analýzy reziduí a diagnostických grafů byly identifikovány dva vlivné body č. 12 a 36. Po jejich odstranění byly nalezeny nové odhady parametrů pro zpřesněný model. Odhady parametrů Proměnná Odhad Směr.Odch. Závěr Pravděp. Spodní mez Horní mez Abs 0,7684 0,3460 Významný 0,0331 0,0653 1,4715 Suunto 0,9393 0,0138 Významný 0 0,9111 0,9674 Základní statistické charakteristiky zpřesněný model původní model Vícenásobný korelační koeficient, R 0,9963242079 0,9931804501 Koeficient determinace, R 2 0,9926619272 0,9864074065 Predikovaný korelační koeficient, Rp 2 0,9838170943 0,9701591344 Střední kvadratická chyba predikce, MEP 0,4592731916 0,8291097584 Akaikeho inf. kritérium, AIC -27,67685391-6,949867074 Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 4599,369117 Kvantil F (1-alfa, m-1, n-m) : 4,130017746 Pravděpodobnost : 7,06988255E-038 Závěr : Model je významný Scottovo kritérium multikolinearity Hodnota kritéria SC : 0,3328568113 Závěr : Model vykazuje multikolinearitu! Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 2,700343396 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,1003266354 Závěr : Rezidua vykazují homoskedasticitu. 29

Jarque-Berrův test normality Hodnota kritéria JB : 0,3463669035 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,8409833208 Závěr : Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 1,991596109 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,1581740921 Závěr : Autokorelace je nevýznamná Durbin-Watsonův test autokorelace Hodnota kritéria DW : -1 Kritické hodnoty DW 1,35 Závěr : Pozitivní autokorelace reziduí není prokázána. Znaménkový test reziduí Hodnota kritéria Sg : 1,847178721 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,06472124228 Závěr : V reziduích není trend. Zpřesněný model má příznivější charakteristiky než model původní (nižší MEP a AIC, vyšší R 2 ). Testy regresního tripletu pro nový model ukazují, že předpoklady MNČ jsou splněny. Všechny parametry nového modelu vychází jako významné. Nicméně parametr b 0 má stále vysokou směrodatnou odchylku. Nalezený model lineární závislosti mezi měřeními výškoměrem Vertex a Suunto má tvar y = 0.7684(0.3460) + 0.9393(0.0138) x Intervaly spolehlivosti parametrů b 0 b 1 Závěr: Interval spolehlivosti úseku neobsahuje nulu, což indikuje, že měření novým přístrojem Vertex vykazuje systematickou odchylku od měření starým přístrojem Suunto. Obě meze intervalu spolehlivosti pro směrnici jsou menší než 1, z čehož vyplývá, že nový výškoměr podhodnocuje. 30

Úloha 4. Vícerozměrný lineární regresní model Zadání: Výzkumný ústav lesního hospodářství dlouhodobě sleduje stav smrkových porostů v Krušných horách. Na základě dat z monitorační plochy Cínovec (tab. 9) vyšetřete vliv výživy, znečištění a klimatických faktorů na tloušťkový přírůst smrku. Postavte vícerozměrný lineární regresní model a vyšetřete regresní triplet, využijte regresní diagnostiku a pomocí parciálních regresních a parciálních reziduálních grafů diskutujte významnost jednotlivých parametrů v modelu. Data z monitorační plochy Cínovec. Přírůst standardizované hodnoty tloušťkového přírůstu (z časové řady odstraněn věkový trend) N (mg/100mg), P (mg/kg), Ca (mg/kg), Mg(mg/kg), K (mg/kg) - koncentrace živin v 1. ročníku jehličí smrku; S (mg/kg), F (mg/kg) - koncentraci zátěžových prvků síry a fluoru v 1. ročníku jehličí smrku; SO 2 veg. (μg/m 3 ) průměrná koncentrace SO 2 v ovzduší ve vegetační době; SO 2 zim. (μg/m 3 ) průměrná koncentrace SO 2 v ovzduší v zimním období před vegetační sezonou; Teplota ( C) - průměrná teplota vzduchu ve vegetační době; Srážky (mm) srážkový úhrn za vegetační období Přírůst y N x 1 P x 2 Ca x 3 Mg x 4 K x 5 S x 6 F x 7 SO 2 veg. x 8 SO 2 zim. x 9 Teplota x 10 Srážky x 11 1994 0,927 1,28 2100 3460 898 8828 990 3,25 42,1 65,7 12,5 450,1 1995 1,005 1,29 700 1994 257 2322 970 0,3 38,2 39,7 11,9 688,3 1996 0,406 1,58 1681 4040 516 7172 1594 2,77 38,4 82,4 10,6 591 1997 0,697 2,07 1579 2913 432 6702 1735 3,31 26,2 48,5 11,6 387,8 1998 0,875 1,45 1370 3057 428 3001 1216 2,71 15,7 25,5 12,2 387,3 1999 1,443 1,64 1256 3190 488 5820 978 2,34 11,1 13,8 12,8 385,6 2000 0,841 1,38 1711 3111 774 5863 1692 3,01 12,1 8,8 12,7 376,5 2001 1,355 1,46 1227 5555 574 4717 1485 2,84 6,2 11,0 11,5 445,8 2002 1,023 1,22 1142 2833 724 6425 1257 0,76 10,4 10,3 12,4 666,1 2003 0,788 1,29 1008 2315 637 5901 1213 0,79 9,5 18,2 13,5 261,8 2004 1,199 1,21 936 3962 772 5850 1060 1,44 8,4 11,2 11,7 463,4 2005 0,894 1,41 1022 3491 761 6188 1300 2,86 9,6 12,4 12,0 442,2 2006 0,827 1,54 1337 3169 687 5671 1330 1,35 8,6 13,3 12,9 394,6 2007 1,09 1,73 1528 4404 730 5917 1410 0,51 10,3 10,0 12,6 634 2008 0,85 1,43 1206 2625 574 5609 1250 1,78 8,8 9,4 12,0 418,1 2009 1,05 1,73 1367 3480 709 6841 1420 1,68 9,8 10,8 13,1 441,9 2010 0,806 1,69 1514 2418 697 6131 1570 2,37 6,3 9,0 11,7 521,9 2011 1,09 1,61 1359 4392 1237 5609 1660 1,59 9,2 11,1 12,9 346,6 2012 0,955 1,62 1358 2543 869 6118 1380 1,64 7,8 7,1 12,3 370,5 2013 0,683 1,43 1506 2197 819 5117 1280 1,68 6,4 8,1 11,7 613,7 Řešení (QC Expert) Návrh modelu y = β 0 + β 1 x 1 + β 2 x 2 + + β 1 x 11 31

Předběžná analýza dat Proměnná Průměr Směr.Odch. Kor.vs.Y Významnost N 1,503 0,2122833261-0,1191792861 0,6167531461 P 1345,35 311,5934049-0,3556275141 0,1238482452 Ca 3257,45 880,5314469 0,4109784155 0,07184306218 Mg 679,15 209,5477021 0,0877873145 0,7128512157 K 5790,1 1364,762786-0,1933453587 0,4140765106 S 1339,5 235,562373-0,3768430578 0,101460729 F 1,949 0,930200318-0,1892153242 0,4243093138 SO2 veg. 14,755 11,54804495-0,3498206375 0,1305454032 SO2 zim. 21,315 21,15828256-0,4861461477 0,02975365164 Teplota 12,23 0,6767569726 0,3432130637 0,1384735581 Srážky 464,36 116,8123615-0,09534571836 0,68926221 Párové korelace (uvedeny pouze dvojice proměnných se statisticky významnou hodnotou korelace) Dvojice proměnných Párové korel. koef. Spočtená hladina významnosti N - S 0,6006546692 0,00510170798 P - K 0,6180027324 0,003684431041 P - F 0,5867591623 0,006537119097 Mg - K 0,457080264 0,0427505513 SO2 veg. - SO2 zim. 0,9306919436 2,720450532E-009 SO2 zim. - Teplota -0,4492700894 0,04689623343 Teplota - Srazky -0,473766619 0,03484397075 Sedm dvojic proměnných je spolu významně korelováno. Nejsilnější korelace je mezi koncentracemi SO 2 v zimním a vegetačním období. Odhad parametrů modelu (MNČ) Proměnná Odhad Směr.odch. Závěr Pravděp. Spodní mez Horní mez Abs 0,6320 1,4777 Nevýznamný 0,6802-2,7757 4,0397 N 0,3161 0,2047 Nevýznamný 0,1611-0,1559 0,7881 P -0,0001 0,0002 Nevýznamný 0,5681-0,0006 0,0003 Ca 0,0002 4,026E-05 Významný 0,0019 9,050E-05 0,0003 Mg -9,542E-05 0,0003 Nevýznamný 0,7145-0,0007 0,0005 K 2,137E-05 3,671E-05 Nevýznamný 0,5765-6,329E-05 0,0001 S -0,0006 0,0002 Významný 0,0218-0,0010-0,0001 F 0,0305 0,0749 Nevýznamný 0,6947-0,1422 0,2031 SO2 veg. 0,0223 0,0112 Nevýznamný 0,0824-0,0036 0,0481 SO2 zim. -0,0175 0,0069 Významný 0,0341-0,0334-0,0017 Teplota 0,0122 0,1025 Nevýznamný 0,9082-0,2244 0,2488 Srazky -0,0002 0,0006 Nevýznamný 0,7784-0,0015 0,0011 Úsek a dalších 8 regresních parametrů vychází jako nevýznamné, jejich intervaly spolehlivosti obsahují nulu, vypočtená hodnota pravděpodobnosti je nižší než zvolená hladina významnosti 0,05. Významnými parametry jsou pouze obsah vápníku, síry a koncentrace SO 2 v zimním období. 32

Základní statistické charakteristiky Vícenásobný korelační koeficient, R 0,9307123963 Koeficient determinace, R 2 0,8662255646 Predikovaný korelační koeficient, Rp 2 0,02043206143 Střední kvadratická chyba predikce, MEP 0,04496335029 Akaikeho inf. kritérium, AIC -75,18519068 Regresní diagnostika 1. Data a) analýza klasických reziduí Graf residua vs. predicke Graf ukazuje, že rezidua tvoří mrak bodů a není zde přítomný žádný trend. V dolní části grafu je patrný jeden odlehlý bod. Reziduální součet čtverců : 0,1403624518 Průměr absolutních reziduí : 0,06310608423 Reziduální směr. odchylka : 0,1324586972 Reziduální rozptyl : 0,01754530647 Šikmost reziduí : 0,04814747597 Špičatost reziduí : 2,904421189 Hodnota šikmosti blízká nule ukazuje, že rezidua mají symetrické rozdělení. Hodnota špičatosti blízká 3 indikuje normální rozdělení. b) analýza ostatních reziduí Odlehlé body a extrémy Jackknife rezidua Predikované reziduum Diagonální prvky Zobec. diagon. prvky Cookova vzdálenost Atkinsonova vzdálenost 6, 9, 12, 14, 18 Vliv na predikci 6, 9, 18 Věrohodnostní vzdálenost LD(b) i Věrohodnostní vzdálenost LD(s 2 ) i Věrohodnostní vzdálenost LD(b,s 2 ) i 12, 18 Analýza reziduí indikuje vlivné body 6, 9, 12, 18. 33

c) grafy vlivných bodů Williamsův graf McCullohův-Meeterův graf L-R graf Graf věrohodnostních vzdáleností Grafy vlivných bodů indikují odlehlé body 12 a 18. d) rankitové grafy Q-Q normalizovaná rezidua Q-Q Jack-Knife rezidua Rankitové grafy indikují odlehlý bod 12. 2. Model Parciální regresní grafy a parciální reziduální grafy 34

Parciální regresní graf konc. Ca v jehličí Parciální graf reziduí Ca Parciální regresní graf konc. S v jehličí Parciální graf reziduí - S Parciální regresní graf SO 2 zim Parciální graf reziduí - SO 2 zim Parciální regresní grafy i parciální reziduální grafy ukazují na lineární závislosti vybraných nezávisle proměnných. 3. Metoda Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 4,709287144 Kvantil F (1-alfa, m-1, n-m) : 3,312950655 Pravděpodobnost : 0,018361715 Závěr : Model je významný Scottovo kritérium multikolinearity Hodnota kritéria SC : 0,1366163904 Závěr : Model je korektní. 35

Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 0,479232473 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,4887701806 Závěr : Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 0,1681043442 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,9193832887 Závěr : Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 0,6740626833 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,4116387465 Závěr : Autokorelace je nevýznamná Durbin-Watsonův test autokorelace Hodnota kritéria DW : -1 Kritické hodnoty DW 0,79 Závěr : Pozitivní autokorelace reziduí není prokázána. Znaménkový test reziduí Hodnota kritéria Sg : 0,6501180672 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,5156159597 Závěr : V reziduích není trend. Testy regresního tripletu ukázaly splnění předpokladů MNČ. Konstrukce zpřesněného modelu V modelu vychází jako statisticky významné pouze tři parametry: Ca, S a SO 2 zim. Na základě analýzy reziduí a diagnostických grafů byl identifikován odlehlý bod č. 12. Po vynechání nevýznamných parametrů a po odstranění bodu 12 byly nalezeny nové odhady parametrů pro zpřesněný model. Při výpočtu se však ukázalo, že se model zcela zbortil, neboť všechny statistické charakteristiky byly rovny nule, v modelu zůstal jediný významný parametr a to koncentrace Ca v jehličí. Byl proto vyzkoušen druhý postup, který spočíval nejprve ve vynechání odlehlého bodu č.12 a ponechání všech parametrů v modelu. 36

Odhad parametrů zpřesněného modelu 1 (po vynechání odlehlého bodu 12) Proměnná Odhad Směr.Odch. Závěr Pravděpodob. Spodní mez Horní mez Abs -1,0086 1,0271 Nevýznamný 0,3588-3,4373 1,4201 N 0,3871 0,1295 Významný 0,0202 0,0808 0,6933 P -0,0006 0,0002 Významný 0,0134-0,0010-0,0002 Ca 0,0002 2,5831E-005 Významný 0,0004 0,0001 0,0002 Mg 0,0002 0,0002 Nevýznamný 0,3193-0,0002 0,0006 K 3,089E-05 2,312E-05 Nevýznamný 0,2233-2,377E-05 8,554E-05 S -0,0006 0,0001 Významný 0,0025-0,0008-0,0003 F 0,1948 0,0648 Významný 0,0198 0,0415 0,3481 SO2 veg. 0,0171 0,0072 Významný 0,0486 0,0001 0,0340 SO2 zim. -0,0138 0,0044 Významný 0,0166-0,0243-0,0034 Teplota 0,1201 0,0706 Nevýznamný 0,1327-0,0468 0,2871 Srazky 0,0006 0,0004 Nevýznamný 0,1718-0,0003 0,0016 V dalším kroku byly z modelu odstraněny nevýznamné parametry (abs. člen, Mg, K, Teplota a Srážky). Odhad parametrů zpřesněného modelu 2 (bez bodu 12 a nevýznamných parametrů) Proměnná Odhad Směr.Odch. Závěr Pravděpodob. Spodní mez Horní mez N 0,6132 0,1717 Významný 0,0038 0,2392 0,9872 P -9,730E-05 0,0002 Nevýznamný 0,5404-0,00044 0,0002 Ca 0,0002 3,8246E-05 Významný 9,1996E-05 0,0001 0,0003 S -0,0005 0,0002 Významný 0,0252-0,0009-7,344E-05 F 0,0575 0,0530 Nevýznamný 0,2994-0,0580 0,1730 SO2 veg. 0,0322 0,0081 Významný 0,0019 0,0145 0,0499 SO2 zim. -0,0228 0,0046 Významný 0,0004-0,0329-0,0127 Nový model indikuje nevýznamné parametry P a F. Spočítáme proto model bez nich. Odhad parametrů zpřesněného modelu 3 (bez bodu 12 a nevýznamných parametrů) Proměnná Odhad Směr.Odch. Závěr Pravděpodob. Spodní mez Horní mez N 0,5989 0,1614 Významný 0,0023 0,2526 0,9452 Ca 0,0002 3,6723E-05 Významný 3,2059E-05 0,0001 0,0003 S -0,0005 0,0002 Významný 0,0147-0,0009-0,0001 SO2 veg. 0,0294 0,0075 Významný 0,0015 0,0134 0,0455 SO2 zim. -0,0210 0,0042 Významný 0,0002-0,0299-0,0121 37

Porovnání základních statistických charakteristik původního modelu a zpřesněných modelů 1 až 3 zpřesněný model 3 zpřesněný model 2 zpřesněný model 1 původní model Vícenásobný korelační koeficient, R 0,856574676 0,870412586 0,9767745965 0,9307123963 Koeficient determinace, R 2 0,733720176 0,757618071 0,9540886124 0,8662255646 Predikovaný korelační koeficient, Rp 2 0,299865136 0,132976497 0,5583510677 0,02043206143 Střední kvadratická chyba predikce, MEP Akaikeho inf. kritérium, AIC Nevýznamné parametry 0,024929663 0,035010624 0,01392902216 0,04496335029-70,21262678-67,9992542-89,61148309-75,18519068 ne ano ano ano Pro zpřesněný model 3 vychází všechny regresní parametry jako statisticky významné, oproti zpřesněnému modelu 2 došlo k poklesu MEP i AIC. Testy regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 9,644067583 Kvantil F (1-alfa, m-1, n-m) : 3,112249848 Pravděpodobnost : 0,0005824465747 Závěr : Model je významný Scottovo kritérium multikolinearity Hodnota kritéria SC : -0,3741514177 Závěr : Model je korektní. Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 1,569648026 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,2102581363 Závěr : Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 0,3861907758 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,8244033323 Závěr : Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 1,656773301 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0,1980395501 Závěr : Autokorelace je nevýznamná 38

Durbin-Watsonův test autokorelace Hodnota kritéria DW : -1 Kritické hodnoty DW 0,75 Závěr : Pozitivní autokorelace reziduí není prokázána. Znaménkový test reziduí Hodnota kritéria Sg : 0,9345839743 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,3500027411 Závěr : V reziduích není trend. Pro zpřesnění model 3 zůstávají předpoklady MNČ splněny. Nalezený model lineární závislosti mezi tloušťkovým přírůstem smrku a parametry prostředí má tvar přírůst = 0,5989 (0,1614). N + 0,0002(3,6723E-05).Ca - 0,0005(0,0002).S + 0,0294(0,0075).SO 2 veg - 0,0210(0,0042). SO 2 zim Závěr: Nalezený vícerozměrný regresní model prokázal, že tloušťkový přírůst smrku na ploše Cínovec je funkcí obsahu dusíku, vápníku a síry v jehličí a dále koncentrací SO 2 v ovzduší, a to jak v zimním období, tak v průběhu vegetační sezóny. Zatímco zvýšená úroveň vápníku a dusíku v jehličí a koncentrace SO 2 ve vegetačním období přírůst stimulují, vysoké koncentrace síry v jehličí a koncentrace SO 2 v zimním období působí na přírůst negativně. Model vysvětluje 73% variability tloušťkových přírůstů. 39