Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Podobné dokumenty
Tvorba grafů v programu ORIGIN

Tvorba nelineárních regresních modelů v analýze dat

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Tvorba grafů v programu ORIGIN

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti

Tvorba nelineárních regresních

Tvorba nelineárních regresních modelů v analýze dat

Inovace bakalářského studijního oboru Aplikovaná chemie

Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Úloha 1: Lineární kalibrace

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

6. Lineární regresní modely

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Semestrální práce. 2. semestr

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Příloha č. 1 Grafy a protokoly výstupy z adstatu

S E M E S T R Á L N Í

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Kalibrace a limity její přesnosti

http: //meloun.upce.cz,

Tvorba lineárních regresních modelů při analýze dat

6. Lineární regresní modely

UNIVERZITA PARDUBICE

Tvorba lineárních regresních modelů

Tvorba lineárních regresních modelů při analýze dat

Semestrální práce. 2. semestr

Fakulta chemicko technologická Katedra analytické chemie

2.2 Kalibrace a limity její p esnosti

Kalibrace a limity její přesnosti

Univerzita Pardubice Fakulta chemicko-technologická. Licenční studium Statistické zpracování dat

Lineární regrese. Komentované řešení pomocí MS Excel

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba grafů v grafickém editoru ORIGIN. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

UNIVERZITA PARDUBICE

6. Lineární regresní modely

6. Lineární regresní modely

Statistická analýza jednorozměrných dat

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Univerzita Pardubice

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Regresní a korelační analýza

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

UNIVERZITA PARDUBICE

PRAVDĚPODOBNOST A STATISTIKA

Aproximace a vyhlazování křivek

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

Regresní a korelační analýza

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní a korelační analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Statistická analýza. jednorozměrných dat

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Popisná statistika. Komentované řešení pomocí MS Excel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

KGG/STG Statistika pro geografy

Semestrální práce. 2. semestr

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Posouzení linearity kalibrační závislosti

Úlohy. Kompendium 2012, Úloha B8.01a, str. 785, Model y = P1 * exp( P2/(B801x + P3)

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Transkript:

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT Seminární práce 4 2.4. Tvorba grafů v programu ORIGIN 3.3. Tvorba nelineárních regresních modelů v analýze dat květen 2016 Mgr. Kateřina Neudertová Hellebrandová, Ph.D Výzkumný ústav lesního hospodářství a myslivosti, v.v.i

Obsah Obsah 2.4. Tvorba grafů v programu ORIGIN... 3 Úloha 1. Využití předdefinovaných témat při úpravě grafu... 4 Úloha 2. Nelineární modely - nelineární prokládání v Origin... 5 Úloha 3. Lineární regrese v Origin... 9 Úloha 4. Vytvořte vícevrstvový graf s propojenými osami... 13 Úloha 5. Grafy exploratorní analýzy... 15 5.1 Krabicový graf... 15 5.2 Diagram rozptýlení... 16 5.3 Maticový graf... 17 3.3. Tvorba nelineárních regresních modelů v analýze dat... 18 Úloha 1. Nalezení vhodného růstového modelu... 19 1.1. Zadání... 19 1.2. Řešeni... 20 1.2.1. Návrh modelu... 20 1.2.2. Odhady parametrů... 20 1.2.3. Graf regresní křivky... 21 1.2.4. Základní statistické charakteristiky regrese... 24 1.2.5. Numerická analýza reziduí... 24 1.2.5. Konstrukce zpřesněného modelu... 25 1.3.Závěr... 27 Úloha 2. Nalezení parametrů alometrické funkce... 28 2.1. Zadání... 28 2.2. Řešeni... 29 2.2.1. Návrh modelu... 29 2.2.2. Odhady parametrů... 29 2.2.3. Graf regresní křivky... 30 2.2.4. Základní statistické charakteristiky regrese... 32 2.2.5. Analýza reziduí... 32 2.2.5. Konstrukce zpřesněného modelu... 34 2.3. Závěr... 36

2.4. Tvorba grafů v programu ORIGIN 2.4. Tvorba grafů v programu ORIGIN 3

2.4. Tvorba grafů v programu ORIGIN Úloha 1 Úloha 1. Pomocí Import Wizard naimportujte data Origin8/Samples/Import and Export/F2.dat. Z načtených dat vytvořte bodový graf tak, aby měl body velikosti 8 a prázdná kolečka, chybové úsečky tvořené sloupcem C, všechny 4 osy, pouze dolní X a levá Y budou popsány, všechny záseky Tick uvnitř, popisky grafu písmem Time New Roman, černé pozadí grafu. Využijte k tomu předdefinovaná témata a specifikujte, která jste použili. Řešení: Graf byl vytvořen dle zadání, následně byla použita tato předdefinovaná témata: Night Sky, Times New Roman font. Oposite lines, Ticks All in. Výsledný graf je zobrazen na obrázku 1. Obr. 1. Graf vytvoření pomocí předdefinovaných témat 4

2.4. Tvorba grafů v programu ORIGIN Úloha 2 Úloha 2. Načtěte data Origin8/Samples/Import and Export/S15-125 -03.dat a vytvořte z nich bodový graf tak, aby na levé ose Y byla data Magnetic Field a na pravé ose Y data Position. Jednotlivé grafy od sebe barevně rozlište, body utvořte z prázdných koleček velikosti 5. Nelineárním prokládáním se pokuste nalézt alespoň dva nelineární modely pro každou křivku a uveďte, který z nich je lepší a vysvětlete také proč. Řešení: Graf obou křivek byl vytvořen pomocí příkazů Plot Multi Curve Double Y (obr. 2.1.). Obr. 2.1. Graf se dvěma osami Y Následně byly pomocí dialogového okna NonLinear Curve Fit vyhledány vhodné nelineární modely pro každou křivku z předdefinovaných funkcí. První křivka (Magnetic Field) byla proložena předefinovanými nelinárními funkcemi Boltzmann, Logistic a Slogistic1. Proložení je znázorněno na obrázku. 2.2. 5

2.4. Tvorba grafů v programu ORIGIN Úloha 2 Obr. 2.2. Nelineární modely pro data Magnetic Field Statistické charakteristiky a hodnota parametrů jsou pro všechny tři modely uvedeny v tabulce 2.1. U Logistického modelu a modelu Slogistic1 jsou všechny parametry statisticky významné. U Boltzmanova modelu byl parametr A1 označen jako statisticky nevýznamný (P=0,78). Jeho hodnota je -115670,84277 a směrodatná odchylka 414467,405. U zbývající dvou modelů (Logistic a Slogistic 1) překračuje regresní rabat 99%. Hodnota sumy reziduálního součtu čtverců i směrodatné odchylky je výrazně nižší u modelu Slogistic1. Tabulka 2.1. Statistické charakteristiky a parametry modelů pro data Magnetic Field Logistic y=a2+(a1-a2)/(1+(x/x0)^p) Boltzman y=a2+(a1-a2)/(1 + exp((x-x0)/dx)) Slogistic 1 y = a/(1 + exp(-k*(x-xc))) Statistické charakteristiky modelu: R 2 0,99605 0,99999 0,9986 s(e) 0,41193 0,02042 0,24501 RSC 169,00627 0,41527 0,9993 Chi-sq 0,16969 4,16942E-4 0,06003 Parametry modelu: A 99,92515 (0,00878) A1 63,99881 (0,125) -115670,84277 (414467,405) A2 100,45201 (0,021) 100,00286 (7,778E-4) x0 0,49593 (0,003) -4,95379 (2,229) p 1,84721 (0,012) dx xc 0,62153 (3,741E-4) -0,25216 (0,00168) k 1,97251 (0,00485) 6

2.4. Tvorba grafů v programu ORIGIN Úloha 2 Druhá křivka (Position) byla proložena předefinovanými nelinárními funkcem Gauss, Pearson VII a Bigaussian (obr. 2.3.) Obr. 2.3. Nelineární modely pro data Position Tabulka 2.2. Statistické charakteristiky a parametry modelů pro data Position Gauss y=y0+ (A/(w*sqrt(PI/2)))*exp(- 2*((x-xc)/w)^2) Statistické charakteristiky modelu: PearsonVII y = y0+ A * 2 * gamma(m)*sqrt(2^(1./m)-1) / ( sqrt(pi) * w * gamma(m - 0.5) ) * ( 1. + 4. * (2^(1./m)-1) / w^2 * (x - xc)^2 )^(-m) R 2 99,964 99,964 99,965 s(e) 0,5775 0,57871 0,57669 RSC 332,17455 333,22681 330,9086 Chi-sq 0,33351 0,3349 0,33257 Parametry modelu: Bigaussian if (x < xc) y = y0 + H*exp(-(x - xc)^2/(2*w1^2)); else y = y0 + H*exp(-(x - xc)^2/(2*w2^2)); y0 100,94887 (0,02305) 100,94252 (0,02511) 100,94882 (0,02304) xc 3,99931 (5,13431E-4) 3,99931 (5,15308E-4) 4,00168 (0,00131) w 1,40123 (0,00112) 1,64915 (0,00168) A 175,63329 (0,14072) 175,69684 (0,17194) m 170 (107,22224) w1 100,0088 (0,06542) w2 0,70271 (0,00119) H 0,69852 (0,00122) 7

2.4. Tvorba grafů v programu ORIGIN Úloha 2 Statistické charakteristiky a hodnota parametrů jsou pro všechny tři modely uvedeny v tabulce 2.2. U všech tří modelů jsou všechny parametry statisticky významné. Regresní rabat všech tří modelů překračuje 99%. Statistické charakteristiky modelu Bigaussian ukazují, že tento model má o něco lepší těsnost proložení, než dva zbývající. Závěr: Na základě porovnání statistických charakteristik modelů byl pro data Magnetic Field vybrán z testovaných modelů jako nejlepší model Slogistic 1, pro data Position model Bigaussian. 8

2.4. Tvorba grafů v programu ORIGIN Úloha 3 Úloha 3. Užitím příkladu E4.20 z Kompendia vytvořte 6 -ti vrstvý graf závislostí jednotlivých znaků cigaret. Pomocí lineární regrese pak rozhodněte, které znaky spolu korelují a proč. Nacházejí se v datech nějaké odlehlé hodnoty? Jak bude vypadat závislost po jejich odstranění (do stejného grafu)? Vysvětlete obdržené výsledky. Řešení: Šestivrstvý graf závislostí jednotlivých znaků cigaret byl vytvořen pomocí dialogového okna Multiple Panels by Lable. Následně byly jednotlivé vrstvy proloženy lineární funkcí (obr. 3.1.) V tabulce 3.1. jsou uvedeny parametry a statistiky lineárních modelů jednotlivých dvojic sledovaných znaků. Již z grafického znázornění na obrázku 3.1. je patrné, že spolu korelují následující dvojice znaků: TAR-NICOTINE, TAR-CO, NICOTINE-CO. To potvrzují také výsledky lineární regrese. Hodnoty Pearsonova korelačního koeficientu se u těchto tří modelů pohybují od 0,93 do 0,98, modely vysvětlují více než 85% variability v datech. Tabulka 3.1. Parametry a statistiky jednotlivých lineárních modelů Znaky Statistické charakteristiy modelu Všechna data Bez odlehlých hodnot Value St. Error Model Value St.Error Model a) TAR- NICOTINE Residual Sum of Squares 0,1391 Významný 0,1275 Významný Pearson's r 0,9766 0,9599 Adj. R-Square 0,9518 0,9178 Intercept 0,1309 0,0376 0,1653 0,0441 Slope 0,0610 0,0028 0,0577 0,0036 b) TAR-WEIGHT Residual Sum of Squares 0,1402 Významný 0,1335 Nevýznamný Pearson's r 0,4908 0,2835 Adj. R-Square 0,2078 0,0386 Intercept 0,8775 0,0377 0,9036 0,0451 Slope 0,0076 0,0028 0,0051 0,0037 c) TAR-CO Residual Sum of Squares 44,869 Významný 27,530 Významný d) NICOTINE- WEIGHT Pearson's r 0,9575 0,9662 Adj. R-Square 0,9131 6 0,9304 Intercept 2,7433 0,6752 1,4129 0,6482 Slope 0,801 0,0503 0,9281 0,0528 Residual Sum of Squares 0,1384 8 Významný 0,1333 Nevýznamný Pearson's r 0,5002 0,2861 Adj. R-Square 0,2176 0,0401 Intercept 0,8617 0,0422 0,8913 0,0531 Slope 0,1240 0,0447 0,0860 0,0611 e) NICOTINE-CO Residual Sum of Squares 76,895 Významný 55,508 Významný Pearson's r 0,9260 0,9305 Adj. R-Square 0,8512 0,8597 Intercept 1,6647 0,9936-0,238 1,0827 Slope 12,395 1,0542 14,860 1,2471 f) WEIGHT-CO Residual Sum of Squares 423,09 Významný 373,94 Nevýznamný Pearson's r 0,4640 0,3102 Adj. R-Square 0,1811 0,0551 Intercept -11,795 9,7216-3,862 10,445 Slope 25,068 9,9803 16,559 10,820 9

2.4. Tvorba grafů v programu ORIGIN Úloha 3 Obr. 3.1. Graf vzájemné závislosti jednotlivých znaků cigaret a) TAR-NICOTINE, b) TAR-WEIGHT, c) TAR- CO, d) NICOTINE-WEIGHT, e) NICOTINE-CO, f) WEIGHT-CO 10

2.4. Tvorba grafů v programu ORIGIN Úloha 3 Obr. 3.2. Graf vzájemné závislosti jednotlivých znaků cigaret po odstranění vlivného bodu z dat a) TAR- NICOTINE, b) TAR-WEIGHT, c) TAR-CO, d) NICOTINE-WEIGHT, e) NICOTINE-CO, f) WEIGHT-CO 11

2.4. Tvorba grafů v programu ORIGIN Úloha 3 U zbývající tři dvojice znaků - TAR-WEIGHT, NICOTINE-WEIGHT, WEIGHT-CO je již z grafů patrné, že korelace mezi nimi nebude významná, body v grafu tvoří neuspořádaný mrak. Regresní modely vysvětlují 18 22% variability v datech, hodnoty Pearsonova korelačního koeficientu se pohybují od 0,46 do 0,50. Směrnice regresních přímek a regresní modely jsou však statisticky významné u všech šesti dvojic znaků. Každý graf však obsahuje jeden vlivný bod (extrém). Po jeho vyloučení se průběh regresní přímky u dvojic znaků TAR-WEIGHT, NICOTINE-WEIGHT, WEIGHT-CO významně změní (obr 3.2.), sníží se hodnota koeficientu determinace a směrnice nové přímky není statisticky významně odlišná od nuly (tabulka 3.1.) Je tedy možné konstatovat, že korelace těchto znaků je výrazně ovlivněna touto jednou extrémní hodnotu v datech. Závěr: znaky TAR-NICOTINE, TAR-CO, NICOTINE-CO jsou spolu významně korelovány. Korelace znaů TAR-WEIGHT, NICOTINE-WEIGHT, WEIGHT-CO je silně ovlivněna jednou extrémní hodnotou v datech, po vypuštění tohoto odlehlého bodu není korelaci v těchto případech statisticky významná. 12

2.4. Tvorba grafů v programu ORIGIN Úloha 4 Úloha 4. Vytvořte vícevrstvový graf s propojenými osami. Zadání: V lesních horských povodích Malá Ráztoka, U vodárny a Červík je dlouhodobě sledován chemismus vody odtékající z povodí. Vytvořte graf, znázorňující koncentrace látek, které se podílejí na acidifikaci lesních ekosystémů (N-NH4 +, N-NO3 -, a S-SO4 2- ) v uzávěrovém profilu povodí v letech 2003 2009. Řešení: Do programu Origin byla importována data ze sešitu programu excel, obsahující hodnoty koncentrací sledovaných látek v uzávěrovém profilu všech tří povodí. Následně bylo vytvořeno 9 grafů, které byly pomocí dialogového okna Merge graphs windows spojeny do jednoho devítivrstvého grafu s propojenými osami. U jednotlivých vrstev grafu bylo měněno formátování, formáty byly do dalších vrstev přenášeny pomocí příkazů Copy Past format. Výsledný graf je zobrazen na obrázku 4. 13

Obr. 4. Devítivrstvý graf s propojenými osami Koncentrace látek, způsobujících acidifikaci lesních ekosystémů v povrchových vodách malých lesních povodí a) Málá Ráztoka, b) Jeseník, c) Červík

2.4. Tvorba grafů v programu ORIGIN Úloha 5 Úloha 5. Grafy exploratorní analýzy Grafy exploratorní analýzy byly vytvořeny z hydrologických a hydrochemických dat experimentálního povodí Želivka. 5.1. Krabicový graf Krabicový graf představuje změny odtokového režimu na uzávěrovém profilu experimentálního povodí Želivka v jednotlivých měsících hydrologického roku na základě souhrnných měsíčních průtoků, měřených v letech 1975 2008. V grafu jsou krabicemi znázorněny percentily (25 a 75), průměr a medián, vousy pak odlehlé body. U každé krabice jsou zobrazena experimentální data proložená křivkou normálního rozdělení (obr. 5.1.). Obr. 5.1. Odtok na uzávěrovém profilu experimentálního povodí Želivka v jednotlivých měsících hydrologického roku 15

2.4. Tvorba grafů v programu ORIGIN Úloha 5 5.2. Diagram rozptýlení Diagram rozptýlení představuje průměrnou koncentraci látek rozpuštěných ve vodě na uzávěrovém profilu experimentálního povodí Želivka v roce 2005 (obr. 5.2.). Obr. 5.2. Průměrná koncentraci látek rozpuštěných ve vodě na uzávěrovém profilu experimentálního povodí Želivka v roce 2005 16

2.4. Tvorba grafů v programu ORIGIN Úloha 5 5.3. Maticový graf V maticovém grafu jsou znázorněny vztahy mezi koncentracemi bazických kationtů ve vzorcích vody odebíraných v experimentálním povodí Želivka v letech 2000 2005 ve formě povrchové vody (stream), podkorunových srážek (troughfall) a srážek na volné ploše (bulk). Na diagonále maticového grafu jsou umístěny histogramy jednotlivých bazických kationtů. Obr. 5.3. Vztahy mezi koncentracemi bazických kationtů ve vzorcích vody odebíraných v experimentálním povodí Želivka v letech 2000 2005 17

3.3. Tvorba nelineárních regresních modelů v analýze dat 3.3. Tvorba nelineárních regresních modelů v analýze dat 18

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 Úloha 1. Nalezení vhodného růstového modelu 1.1. Zadání Růstová funkce je matematickým vyjádřením růstu stromu v čase (závislost růstové veličiny y na čase (věku) t). Jejím grafickým obrazem je růstová křivka, která má typický průběh. V rámci projektu zaměřeného na výzkum výživy smrkových porostů byla v lokalitě Čachnov provedena úplná kmenová analýza šesti vzorníků. Po skácení stromu a odstranění větví byly kmeny vzorníkových stromů po změření celkové výšky stromu rozřezány na sekce o předem stanovené délce. Z každé sekce byl vyříznut kotouč pro další analýzu. Na základě počtu letokruhů na začátku a na konci každé sekce byla interpolací stanovena výška stromu v pětiletých intervalech pro celé období jeho růstu. Pro nalezení vhodného růstového modelu byly použity průměrné výšky pro jednotlivé věkové intervaly. Jaký růstový model nejlépe vystihuje růst smrku na lokalitě Čachnov? Tabulka 1.1. Vstupní data vzorník průměr 1 2 3 4 5 6 věk Výška (m) 5 0.25 0.25 0.25 0.25 0.25 0.25 0.2500 10 0.76 1.31 0.62 1.33 1.70 0.90 1.1051 15 1.30 2.42 1.11 3.43 3.44 2.05 2.2909 20 2.26 3.83 2.22 5.86 5.18 3.68 3.8380 25 3.26 5.89 3.78 7.33 7.17 5.00 5.4038 30 4.62 7.95 5.51 10.09 9.04 6.77 7.3320 35 6.01 9.43 6.69 12.23 10.61 8.68 8.9418 40 7.31 10.77 7.76 14.33 12.21 10.35 10.4550 45 8.34 12.01 8.87 16.02 14.23 11.81 11.8805 50 9.30 13.09 10.23 18.12 15.72 13.55 13.3351 55 10.50 14.17 12.62 19.67 18.12 15.32 15.0661 60 11.79 15.52 14.63 21.29 19.13 17.02 16.5627 65 13.29 16.92 16.29 22.87 20.03 18.48 17.9816 70 15.42 18.40 18.13 24.27 21.91 19.59 19.6192 75 17.67 19.71 19.58 25.64 23.72 20.91 21.2052 80 19.80 21.15 21.25 27.00 25.08 22.65 22.8196 85 22.26 22.72 23.12 28.14 26.12 24.42 24.4626 90 24.39 24.65 25.06 29.06 27.03 25.98 26.0270 95 25.45 25.86 26.66 29.80 27.83 27.06 27.1074 100 26.54 26.94 27.66 30.35 28.63 28.07 28.0310 105 27.51 27.86 28.60 31.20 29.22 28.93 28.8848 110 28.57 28.84 29.74 32.08 29.84 29.77 29.8069 115 29.87 29.72 30.88 33.00 30.43 30.60 30.7517 120 34.03 31.40 32.7165 19

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 Obr. 1.1. Vstupní data 1.2. Řešení Použitý software: ORIGIN 1.2.1. Návrh modelu Byly testovány následující růstové funkce, běžně užívané v lesnictví: Gompertzova: y = Ae be ct Michailovova: y = Ae k t Mitscherlichova: y = A(1 e c t) m Logistická: y = A(1 + ce bt ) Chapmann-Richardsova: y = A(1 e (1 n)bt ) Korfova: y = Ae k (1 n)t n 1 1 1 n 20

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 1.2.2. Odhadování parametrů Tabulka 1.2: Odhad parametrů regeresních modelů funkce parametr bodový odhad směrodatn á odchylka t - kritérium P dolní mez horní mez Gompertzova: A 28,2941 1,08898 25,98218 0 26,03569 30,55251 c 0,06177 0,00217 28,45208 0 0,05727 0,06627 Michailovova: A 54,67782 1,84996 29,55617 0 50,84123 58,51441 k 67,79043 2,70947 25,01977 0 62,17133 73,40954 Mitscherlichova: A 49,6128 2,25908 21,96149 6,66134E-16 44,91478 54,31082 c 0,0124 9,85772E-4 12,57554 3,05449E-11 0,01035 0,01445 m 1,68027 0,06752 24,88462 0 1,53985 1,82069 Logistická: A 33,19267 0,94686 35,05547 0 31,22357 35,16178 b 0,04533 0,00264 17,14187 7,99361E-14 0,03983 0,05082 c 15,66817 1,77725 8,81595 1,67737E-8 11,97217 19,36417 Chapmann- Richardsova: A 49,61171 2,24544 22,09448 4,44089E-16 44,94208 54,28135 n 0,40487 0,02396 16,89808 1,05915E-13 0,35504 0,4547 b 0,02083 0,00248 8,41184 3,64867E-8 0,01568 0,02598 Korfova: A 267,45638 70,65746 3,78525 0,00108 120,51615 414,39661 k -5,43795 0,78828-6,89853 8,1212E-7-7,07725-3,79864 n 0,60687 0,03704 16,38441 1,93845E-13 0,52985 0,6839 Všechny parametry testovaných modelů splňují Sillenovo pravidlo - odhad parametru je větší než trojnásobek jeho směrodatné odchylky. Žádný z parametrů neobsahuje nulu v intervalu spolehlivosti. Všechny parametry jsou významné (tabulka 1.2) Je však třeba se zamyslet nad fyzikálním smyslem odhadnutých parametrů. Parametr A představuje v růstových funkcích asymptotu a ve fyzikálním smyslu je tedy možné jej hodnotit jako maximální dosaženou možnou výšku dřeviny. Jako maximální dosažitelná výška pro smrk se ve středoevropských podmínkách uvádí 40 55 m. Z tohoto pohledu se nejreálnější jeví výsledky Mitscherlichova a Chapmann Richardsova modelu. 1.2.3. Graf regresní křivky Pro grafické posouzení vhodnosti modelů byl použit graf proložení experimentálních dat regresním modelem (obr. 1.2.) a grafy studentizovaných reziduí vynesených v závislosti na predikovaných hodnotách (obr. 1.3.). 21

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 Obr. 1.2. Proložení experimentálních dat testovanými modely 22

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 Obr. 1.3. Studentizovaná rezidua vs. predikce 23

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 Gompertzůva funkce dává v mladším věku příliš nízké hodnoty oproti experimentálním datům. I v literatuře se uvádí, že je vhodné ji používat pro popis růstu stromu a porostu až od věku 40 50 let, což odpovídá průniku regresní křivky s experimentálními daty na obrázku 1.2. Nízké hodnoty se však objevují i ve starším věku. Mnohem těsnější proložení experimentálními daty přináší funkce Michailovova, která však pro mladší věk rovněž dává nízké hodnoty. Logistický model naopak v mladším věku růst nadhodnocuje. U Mitscherlichova, Chapmann Richardsova a Korfova modelu vypadá průběh regresní křivky obdobně. Na základě grafického zhodnocení se zdá, že průběh horního konce křivky těchto tří modelů je ovlivněn jedním vlivným bodem a tak nedochází k určitému zpolštění křivky, které by odpovídalo pomalejšímu růstu stromů ve vyšším věku. Tento vlivný bod je patrný i v grafech reziduí. 1.2.4. Základní statistické charakteristiky regrese Tabulka 1.3: Statistické charakteristiky regresních modelů funkce RSC R 2 s(e) e Gompertzova: 180,64691 0,92668 2,86552 0.29810375 Michailovova: 25,17639 0,98978 1,06976 0.2509825 Mitscherlichova: 2,04022 0,99917 0,31169-0.041081667 Logistická: 20,08341 0,99185 0,97793-0.118850833 Chapmann-Richardsova: 2,04022 0,99917 0,31169-0.041081667 Korfova: 2,39427 0,99903 0,33766 0.02110125 Dle hodnot statistických charakteristik popisují experimentální data nejlépe Mitscherlichova a Chapmann- Richardsova funkce (jejichž statistiky jsou shodné) a dále funkce Korfova. Mají nejvyšší regresní rabat (99,99%, nejnižší směrodatnou odchylku i reziduální součet čtverců. Střední hodnota reziduí se blíží nule (tabulka 1.3.) 1.2.5. Numerická analýza reziduí Numerická analýza reziduí byla provedena v programu Excel z hodnot studentizovaných reziduí (tab 1.4.) Aby mohla být potvrzena normalita reziduí, měla by se hodnota šikmosti blížit nule a hodnota špičatosti hodnotě tři. Normální rozdělení nevykazují rezidua žádné z testovaných funkcí. Tabulka 1.4: Výsledky numerické analýzy reziduí Směr. funkce odchylka Špičatost Šikmost Gompertzova: 0.969635094-1.177890403 0.00296117 Michailovova: 0.984235054-1.043076974 0.170919878 Mitscherlichova: 1.041020755-0.784335411 0.387285254 Logistická: 1.01543283 0.38660643-0.222307465 Chapmann-Richardsova: 1.040973023-0.784646507 0.38724583 Korf: 1.022855907 0.287072417 0.081986443 24

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 1.2.6. Konstrukce zpřesněného modelu Z dat byl vyloučen vlivný bod č. č. 24 a byly odhadnuty parametry zpřesněných modelů. Odhady parametrů zpřesněného modelu Tabulka 1.5: Odhad parametrů zpřesněných regeresních modelů funkce parametr bodový odhad směrodatn á odchylka t - kritérium P dolní mez horní mez Gompertzova: A 27,42262 1,0738 25,5379 0 25,18952 29,65571 c 0,06309 0,00223 28,34867 0 0,05847 0,06772 Michailovova: A 53,3147 1,84483 28,89948 0 49,47816 57,15124 k 66,22847 2,67026 24,8023 0 60,67537 71,78157 Mitscherlichova: A 47,58469 2,13026 22,33752 1,33227E-15 43,14105 52,02834 c 0,01319 0,00103 12,82491 4,16285E-11 0,01105 0,01534 m 1,72205 0,06972 24,69906 2,22045E-16 1,57662 1,86749 Logistická: A 32,07861 0,90431 35,4729 0 30,19225 33,96498 b 0,04731 0,0027 17,52593 1,32117E-13 0,04168 0,05294 c 16,13311 1,80398 8,94307 1,99932E-8 12,37008 19,89614 Chapmann- Richardsova: A 47,58697 2,11772 22,47082 1,11022E-15 43,16947 52,00446 n 0,41927 0,02358 17,78051 1,00808E-13 0,37008 0,46846 b 0,02272 0,00268 8,49272 4,57383E-8 0,01714 0,0283 Korfova: A 251,53158 70,07323 3,58955 0,00183 105,36138 397,70178 k -5,6144 0,87851-6,3908 3,10147E-6-7,44695-3,78185 n 0,5986 0,04026 14,86948 2,82707E-12 0,51463 0,68258 Základní statistické charakteristiky zpřesněného modelu Tabulka 1.6: Statistické charakteristiky regresních modelů funkce RSC R 2 s(e) Gompertzova: 154,84032 0,92971 2,71539 Michailovova: 21,86491 0,99008 1,02039 Mitscherlichova: 1,73162 0,99921 0,29425 Logistická: 16,28585 0,99261 0,90238 Chapmann-Richardsova: 1,73162 0,99921 0,29425 Korf: 2,35299 0,99893 0,343 Po odstranění bodu č. 24 došlo k mírnému zlepšení sledovaných statistických charakteristik u všech modelů, výjimku tvoří R 2 u Korfova modelu. Nové proložení experimentálních dat regresními funkcemi je znázorněno na obrázku 1.4. 25

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 Obr. 1.4. Proložení experimentálních dat testovanými modely po odstranění vlivného bodu 26

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 1 1.3. Závěr Závěr: nejlepší proložení dat bylo dosaženo Mitscherlichovou a Chapmann-Richardsovou funkcí Zpřesněný model má tvar Mitscherlichova funkce: y = 47,58469 (±2,13026) (1 e 0,01319 (±0,00103) t ) 1,72205 (±0,06972) Chapmann-Richardsova funkce: y = 47,58697 (±2,11772) (1 e (1 0,41927 (±0,02358))0,02272 (±0,00268) t ) 1 1 n1 0,41927 (±0,02358) 27

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Úloha 2. Nalezení parametrů alometrické funkce 2.1. Zadání Pro výpočet nadzemní biomasy dřevin se používají tzv. alometrické rovnice, vytvořené na základě destruktivní analýzy dřevin. Jejich nejběžnější matematické formulace mají regresní formu nelineární exponenciální funkce nebo lineární funkce. Nejčastěji se v biometrických studiích používá exponenciální rovnice o dvou parametrech ( 0, 1) vyjadřující závislost pouze na výčetní tloušťce D. Nalezněte parametry alometrické funkce na základě nezávislého souboru empirických dat z 81 vzorníků buku pocházejících z 10 oblastí České republiky. Porovnejte řešení pomocí různého softwaru. Tabulka 2.1: Vstupní data vzorník výčetní tloušťka nadzemní biomasa celkem vzorník výčetní tloušťka nadzemní biomasa celkem 1 22,000 289,176 21 47,7 1634,4 41 30,7 709,0 61 8,7 28,9 2 20,100 277,038 22 62,1 3116,2 42 34,5 1024,6 62 8,1 23,5 3 19,900 248,155 23 31,4 922,7 43 34,7 1004,7 63 8,9 25,0 4 19,800 272,382 24 29,9 801,3 44 39,4 1368,3 64 8,3 19,9 5 21,200 254,238 25 31,8 969,2 45 34,0 688,6 65 16,2 158,6 6 12,100 79,170 26 24,7 475,9 46 32,5 693,1 66 18,5 199,6 7 12,600 98,919 27 25,8 492,2 47 33,0 627,4 67 16 138,5 8 12,300 62,216 28 26,5 494,6 48 29,5 555,7 68 11,9 56,5 9 12,600 88,884 29 11,2 55,3 49 26,4 393,1 69 12 44,3 10 11,300 51,109 30 11,2 55,5 50 26,1 491,5 70 11,9 57,9 11 9,300 40,439 31 11,5 57,7 51 7,5 20,6 71 11,4 45,6 12 9,800 41,116 32 30,3 526,1 52 7,5 21,1 72 11,7 48,4 13 10,400 51,455 33 35,3 787,8 53 7,4 21,8 73 56,5 3098,3 14 8,000 18,916 34 40,3 1121,6 54 39,6 1025,1 74 45,7 2275,9 15 7,300 25,306 35 5,7 6,6 55 41,2 1166,1 75 53,3 2595,1 16 30,9 627,3 36 8,1 26,4 56 39,1 947,6 76 32,3 390,7 17 39,5 953,7 37 15,0 92,6 57 23,2 341,6 77 27,2 361,5 18 40,7 1404,7 38 26,2 525,1 58 22,5 367,0 78 25,3 355,5 19 41,4 1261,4 39 26,5 609,9 59 22,5 344,6 79 12,1 57,3 20 46,2 1743,5 40 29,3 642,0 60 8,7 21,6 80 12,7 64,8 81 12,9 60,5 vzorník výčetní tloušťka nadzemní biomasa celkem vzorník výčetní tloušťka nadzemní biomasa celkem 28

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Obr. 2.1. Vstupní data 2.2. Řešení Použitý software: ORIGIN, ADSTAT, QC.EXPERT 2.2.1. Návrh modelu Základní alometrická rovnice: y = AD b 2.2.2. Odhadování parametrů Tabulka 2.2: Odhad parametrů regeresního modelu software parametr bodový odhad směrodatn á odchylka dolní mez horní mez ORIGIN a 0,22016 0,0541 0,11247 0,32785 b 2,33919 0,06266 2,21446 2,46391 ADSTAT a 0,21971 0,05509 b 2,3397 0,065404 QC.EXPERT a 0,22063 0,05543 0,11029 0,33097 b 2,3386 0,06555 2,20813 2,46909 29

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Nalezené parametry modelů splňují Sillenovo pravidlo, tedy že odhad parametru je větší než trojnásobek jeho směrodatné odchylky. Žádný z parametrů neobsahuje nulu v intervalu spolehlivosti. Nalezené parametry jsou významné (tabulka 2.2) 2.2.3. Graf regresní křivky Pro grafické posouzení vhodnosti modelů byl použit graf proložení experimentálních dat regresním modelem (obr. 2.2.) a grafy klasických reziduí vynesených v závislosti na predikovaných hodnotách (obr. 2.3.). Obr. 2.2. Proložení experimentálních dat alometrickou funkcí v programu Origin, ADStat a QC.Expert 30

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Obr 2.3. Rezidua vs. Predikce v programu Origin, ADStat a QC.Expert 31

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 2.2.4. Základní statistické charakteristiky regrese tabulka 2.3: Statistické charakteristiky regresních modelů software RSC R 2 s(e) AIC MEP ORIGIN 1,37E+06 0,96213 131,7083 ADSTAT 1,37E+06 0,96219 131,61 792,5 22464 QC.EXPERT 1,37E+06 0,96213 131,7086 792,6 22486 Dle hodnot statistických charakteristik regrese se výsledky získaných z jednotlivých programů nepatrně liší. 2.2.5. Analýza reziduí Numerická analýza reziduí Aby mohla být potvrzena normalita reziduí, měla by se hodnota šikmosti blížit nule a hodnota špičatosti hodnotě tři. Předpoklad normality však rezidua nesplňují. tabulka 2.4: Výsledky numerické analýzy reziduí Směr. software odchylka Špičatost Šikmost ORIGIN 1,055214 5,766902 0,728274 ADSTAT 8,2685 0,97434 QC.EXPERT 8,1609 0,832269 Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 86,11904523 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0 Závěr : Rezidua vykazují heteroskedasticitu! Jarque-Berrův test normality Hodnota kritéria JB : 101,1241518 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0 Závěr : Rezidua nemají normální rozdělení! Waldův test autokorelace Hodnota kritéria WA : 14,2453444 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0 Závěr : Autokorelace je významná Znaménkový test reziduí Hodnota kritéria Sg : 3,100948149 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,001929020662 Závěr : V reziduích je trend! Závěry testů z programu QC.Expert potvrzují, že rezidua nemají normální rozdělení, vykazují heteroskedasticitu a autokorelace v datech je významná. 32

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Grafická analýza reziduí Obr. 2.4. Grafická analýza reziduí Na základě analýzy reziduí byly v datech identifikovány vlivné body 21,22,73,74,75 a 76, které byly pro konstrukci zpřesněného modelu odstraněny. 33

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 2.2.6. Konstrukce zpřesněného modelu Odhady parametrů zpřesněného modelu Tabulka 2.5: Odhad parametrů zpřesněného modelu software parametr bodový odhad směrodatn á odchylka dolní mez horní mez ORIGIN a 0,33122 0,09956 0,13281 0,52964 b 2,21918 0,08212 2,05552 2,38285 ADSTAT a 0,331 0,10127 b 2,2194 0,08528 QC.EXPERT a 0,3307 0,10128 0,1288384223 0,532548037 b 2,2196 0,08538 2,049464698 2,389815021 Základní statistické charakteristiky zpřesněného modelu Tabulka 2.6: Statistické charakteristiky zpřesněného modelu RSC RSC R software nové 2 R 2 s(e)nové s(e) nové ORIGIN 1,37E+06 556740 0,96213 0,9575 131,71 87,33 AIC AIC nové MEP MEP nové ADSTAT 1,37E+06 556740 0,96219 0,9575 131,61 87,33 792,5 672,4 22464 8227,2 QC.EXPERT 1,37E+06 556742 0,96213 0,9575 131,71 87,33 792,6 672,4 22486 8227,1 Odhady parametrů i jejich směrodatné odchylky se opět u všech tří softwarů liší. I statistické charakteristiky regrese vykazují drobné odchylky. Po odstranění vlivných bodů z dat došlo k výraznému zlepšení hodnoty kritérií MEP i AIC, která považujeme za jedny z rozhodujících kritérií při posuzování kvality modelu. U všech tří programů došlo ke zhoršení hodnoty regresního rabatu. Nové proložení experimentálních dat regresní funkcí je znázorněno na obrázku 2.5. 34

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Obr. 2.5. Proložení experimentálních dat alometrickou funkcí - zpřesněný model Vzhledem k tomu, že experimentální data svým charakterem nesplňují předpoklady pro regresi ani po odstranění vlivných bodů (rezidua vykazují heteroskedasticitu a nemají normální rozdělení) byly hodnoty nadzemní biomasy v dalším kroku převedeny na přirozený logaritmus (byl odstraněn ještě vlivný bod č. 35) a znovu testovány v programu QC.Expert. Nové odhady parametrů a statistické charakteristiky regrese pro zlogaritmovaná data jsou uvedeny v tabulce 2.7. a 2.8 Tabulka 2.7: Odhad parametrů zpřesněného modelu pro zlogaritmovaná data software parametr bodový odhad směrodatn á odchylka dolní mez horní mez QC.EXPERT a 0,3307 0,10128 0,1288384223 0,532548037 b 2,2196 0,08538 2,049464698 2,389815021 QC.EXPERT (ln y) a 1,259518824 0,0438323789 1,172140574 1,346897074 b 0,4763207995 0,01076853169 0,4548541239 0,4977874751 Tabulka 2.8: Statistické charakteristiky zpřesněného modelu pro zlogaritmovaná data RSC R 2 s(e) AIC MEP software QC.EXPERT 556742 0,9575 87,33 672,4 8227,1 QC.EXPERT(ln y 4,4041 0,9696 0,2473-205 0,0631 Došlo k výraznému zlepšení všech statistických charakteristik regrese, rezidua mají nyní normální rozdělení a vykazují homoskedasticitu. 35

3.3. Tvorba nelineárních regresních modelů v analýze dat Úloha 2 Výsledné grafické vyjádření regresního modelu je na obrázku 2.6. Obr. 2.6. Proložení zlogaritmovaných experimentálních dat alometrickou funkcí 2.3. Závěr Nejlepší proložení dat bylo dosaženo po zlogaritmování hmotnosti nadzemní biomasy Zpřesněný model má tvar ln y = 1,259518824 (±0,043832) D 0,47632 (±0,010768) 36