Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Semestrální práce Licenční studium Galileo Předmět Nelineární regrese Jiří Danihlík Olomouc, 2016
Obsah... 1 Hledání vhodného modelu pro růst bakterie Escherichia coli... 3 1.1 Schnuteho model... 3 1.1.1 Kritika dat a modelu... 4 1.2 Gompertzův model... 5 1.2.1 Kritika dat a modelu... 6 1.3 Logistický model... 7 1.3.1 Kritika dat a modelu... 8 1.4 Porovnání statistického hodnocení tří modelů a výběr vhodného modelu 10 1.4.1 Porovnání výsledku s programem Origin 9... 10 1.5 Závěr... 11 2 Hledání vhodného modelu pro růst bakterie Paenibacillus larvae... 12 2.1 Schnuteho model... 13 2.1.1 Kritika dat a modelu... 13 2.2 Gompertzův model... 14 2.3 Logistický model... 16 2.3.1 Kritika dat a modelu... 17 2.4 Porovnání statistického hodnocení tří modelů a výběr vhodného modelu 19 2.5 Porovnání výsledku s programem Origin 9... 19 2.6 Závěr... 20 3 Využití předdefinovaných modelů růstových křivek v programu Origin 9. 21 3.1 Závěr... 23 2
1 Hledání vhodného modelu pro růst bakterie Escherichia coli Pro stanovení růstové křivky byla měřena optická densita kultury bakterie E. coli při 600 nm. Data byla sbírána v čase na mikrodestičkovém readru v objemu 100 µl. Cílem analýzy je najít vhodný matematický model růstu této bakterie. Modely byly testovány softwary Origin 9 a QC Expert 2.9, matematické vyjádření modelů bylo získáno z programu ADSTAT nebo z literatury (Zweiterring et al., 1990). V obou programech byla nastavena stejná metoda výpočtu Marquardt. Tab. č. 1: Hodnoty optické density média při kultivaci bakterie E. coli. Čas OD600 (hh:mm) 0:00:00 0,019 0:15:00 0,024 0:30:00 0,031 0:45:00 0,045 1:00:00 0,062 1:15:00 0,086 1:30:00 0,116 1:45:00 0,159 2:00:00 0,200 2:15:00 0,248 2:30:00 0,299 2:45:00 0,360 3:00:00 0,420 3:15:00 0,473 1.1 Schnuteho model Schnuteho model má tento tvar y=p1*(1+p4*exp(-p3*(x-p2)))^(-1/p4) (zdroj rovnice ADSTAT). Zvolené hodnoty počátečního odhadu: P1 =0,8; P2= 0,1; P3 = 20; P4 = 0,5 3
1.1.1 Kritika dat a modelu Obr. č. 1: Diagnostické grafy modelu; A regresní graf; B graf vlivných bodů; C graf Jacknife reziduí; D graf predikovaných reziduí; E graf Atkinsonovy vzdálenosti; F graf reziduí. Dle grafu se jeví, že body jsou dobře proloženy regresní křivkou, jeden bod je diagnostikován jako vlivný, graf reziduí správně vytváří obláček bodů, graf Atkinsonovy vzdálenosti ukazuje několik vlivných bodů, které však nebudou z modelu odstraněny. 4
Tab. č. 2: Kritika modelu Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 0,012200295 Pravděpodobnost : 0,912048578 Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 0,320706636 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,851842764 Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 0,246965119 Pravděpodobnost : 0,912048578 Autokorelace je nevýznamná Znaménkový test reziduí Hodnota kritéria Sg : 0,772116324 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,440045535 V reziduích není trend. Model splňuje podmínku homoskedasticity a normality rozdělení reziduí, není v nich trend a nejsou autokorelována, což naznačuje vhodnost použitého modelu. Tab. č. 3: Odhady parametrů modelu Odhady parametrů Parametr Směr. Dolní mez Horní mez odchylka P1 0,8279 0,091017826 0,625099645 1,030700355 P2 0,1173 0,004673967 0,106885751 0,127714249 P3 23,237 3,875446316 14,60196749 31,87203251 P4 0,569 0,173069356 0,183377445 0,954622555 Směrodatná odchylka parametru 4 (P4) je vysoká, stále však splňuje Sillenovo pravidlo, že parametr musí být větší než 3 jeho směrodatné odchylky. 1.2 Gompertzův model Matematicky je Gompertzův model vyjádřen takto: y=p1*exp(-exp(-p2*(x-p3))) Zvolení počáteční odhady parametrů: P1=1,5; P2=10; P3=0,1 5
1.2.1 Kritika dat a modelu Obr. č. 2: Diagnostické grafy modelu; A regresní graf; B graf vlivných bodů; C graf Jacknife reziduí; D graf predikovaných reziduí; E graf Atkinsonovy vzdálenosti; F graf reziduí. Dle regresní křivky se body jeví jako dobře proložené, v grafech reziduí i Jacknife rezidují je však patrný trend, který indikuje nevhodnost modelu. Je indikován jeden vlivný bod, který však nebude odstraněn. 6
Tab. č. 4: Kritika modelu Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 0,130073495 Pravděpodobnost : 0,718355849 Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 1,144520407 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,564248679 Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 0,948318332 Pravděpodobnost : 0,718355849 Autokorelace je nevýznamná Znaménkový test reziduí Hodnota kritéria Sg : 0,772116324 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,440045535 V reziduích není trend. Ačkoliv diagnostické grafy ukazují trend v reziduích, tak model splňuje podmínku homoskedasticity a normality rozdělení reziduí, není v nich trend a nejsou autokorelována, což naznačuje vhodnost použitého modelu. Tab. č. 5: Odhady parametrů modelu Odhady parametrů Parametr Směr. Dolní mez Horní mez odchylka P1 1,5858 0,17379308 1,203284009 1,968315991 P2 10,4763 0,627102678 9,096056312 11,85654369 P3 0,1528 0,009412711 0,132082763 0,173517237 1.3 Logistický model Matematické vyjádření logistického modelu bylo získáno z literatury (Zweiterring et al., 1990). Model má tento tvar: y=p1/(1+exp(p2-p3*x)) Počáteční hodnoty parametrů: P1=0; P2=3; P3=30 7
1.3.1 Kritika dat a modelu Obr. č. 3: Diagnostické grafy modelu; A regresní graf; B graf vlivných bodů; C graf Jacknife reziduí; D graf predikovaných reziduí; E graf Atkinsonovy vzdálenosti; F graf reziduí. Dle regresního grafu se zdá, že model vyhovuje, avšak dle grafu reziduí je evientní, že body neoscilují kolem nulového bodu, je v nich patrný trend, proto tento model pravděpodobně nebude vhodný. 8
Tab. č. 6: Kritika modelu Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 2,08541E-05 Pravděpodobnost : 0,996356371 Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 0,387948645 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,823679054 Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 2,238361681 Pravděpodobnost : 0,996356371 Autokorelace je nevýznamná Znaménkový test reziduí Hodnota kritéria Sg : 1,341044142 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,179906121 V reziduích není trend. Ačkoliv diagnostické grafy ukazují trend v reziduích, tak model splňuje podmínku homoskedasticity a normality rozdělení reziduí, není v nich trend a nejsou autokorelována, což naznačuje vhodnost použitého modelu. Tab. č. 7: Odhady parametrů modelu Odhady parametrů Parametr Směr. Dolní mez Horní mez odchylka P1 0,6839 0,018717203 0,642703714 0,725096286 P2 3,6314 0,03011709 3,565112732 3,697687268 P3 32,7117 0,670757726 31,2353722 34,1880278 9
1.4 Porovnání statistického hodnocení tří modelů a výběr vhodného modelu Tab. č. 8: Statistické charakteristiky regrese testovaných modelů pro růst bakterie E. coli. E. coli Schnuteho model Gompertzův model Logistický model Vícenásobný korel. koef. R : 0,999885488 0,999712928 0,999822441 Koeficient determinace R^2 : 0,999770988 0,999425939 0,999644913 Predikovaný korel. koef. Rp : 0,999469979 0,998590504 0,999392336 Stř. kvadratická chyba predikce MEP : Akaikeho informační kritérium : 1,18593E-05 3,15378E-05 1,35966E-05-162,5415329-151,6760544-158,401283 Reziduální součet čtverců : 7,17387E-05 0,000179827 0,000111232 Průměr absolutních reziduí : 0,026744629 0,040658181 0,030086779 Reziduální směr. odchylka : 0,002678407 0,004043249 0,003179939 Reziduální rozptyl : 7,17387E-06 1,63479E-05 1,0112E-05 Šikmost reziduí : 0,074563666 0,376324519 0,14628051 Špičatost reziduí : 2,498474188 2,324176866 3,282723855 1.4.1 Porovnání výsledku s programem Origin 9 Tab. č. 9: Porovnání odhadů parametrů a RSC Originu 9 s QC Expertem Origin 9 QC Expert 2.9 Odhady parametrů Směrodatná odchylka parametru Odhady parametrů Směrodatná odchylka parametru P1 0,82801 0,08872 0,8279 0,091017826 P2 0,11735 0,00464 0,1173 0,004673967 P3 23,23366 3,72028 23,237 3,875446316 P4 0,56888 0,16439 0,569 0,173069356 RSC 7,14E-05 7,17E-05 10
Regular Residual Mean"E. coli" E. coli 0,4 0,2 0,0 0,00 0,05 0,10 Cas (hod) model. Obr. č. 4: Regresní přímka spočítaná programem Origin 9 pro Schnuteho 0,005 0,000-0,005 0,00 0,05 0,10 0,15 Independent Variable Obr. č. 5: Graf reziduí z programu Origin 9 pro Schnuteho model. 1.5 Závěr Dle diagnostických grafů se proložení regresní přímky experimentálními body jeví jako vhodné, avšak z grafů reziduí a Jacknife rezidují je patrné, že v případě Gompertzova modelu a logistického modelu je v reziduích nápadný trend, což svědčí o nevhodnosti modelu. Na základě statistického hodnocení regrese byl dle MEP, AIC, směrodatné odchylky reziduí atd. zvolen jako nejlepší model Schnuteho. Vyčíslený model má tento tvar: y=0,8279 (0,0191) *(1+0,569 (0,173) *exp(-23,237 (3,875) *(x- 0,1173 (0,0047) )))^(-1/(0,569 (0,173) ). 11
2 Hledání vhodného modelu pro růst bakterie Paenibacillus larvae Pro stanovení růstové křivky byla měřena optická densita kultury bakterie P. larvae při 600 nm. Data byla sbírána v čase na mikrodestičkovém readru v objemu 100 µl. Cílem analýzy je najít vhodný matematický model růstu této bakterie. Modely byly testovány softwary Origin 9 a QC Expert 2.9, matematické vyjádření modelů bylo získáno z programu ADSTAT nebo z literatury (Zweiterring et al., 1990). Tab. č. 10: Experimentální hodnoty optické density růstu kultury P. larvae Čas OD600 (hh:mm) 0 0,023 0,01042 0,025 0,02083 0,025 0,03125 0,026 0,04167 0,029 0,05208 0,031 0,0625 0,036 0,07292 0,037 0,08333 0,042 0,09375 0,048 0,10417 0,052 0,11458 0,057 0,125 0,064 0,13542 0,072 0,14583 0,080 0,15625 0,088 0,16667 0,099 0,17708 0,106 0,1875 0,116 0,19792 0,128 0,20833 0,140 0,21875 0,150 0,22917 0,165 0,23958 0,179 0,25 0,190 0,26042 0,205 0,27083 0,217 0,28125 0,227 0,29167 0,236 12
2.1 Schnuteho model Schnuteho model má tento tvar y=p1*(1+p4*exp(-p3*(x-p2)))^(-1/p4) (zdroj rovnice ADSTAT). Zvolené hodnoty počátečního odhadu: P1 =0,2; P2= 0,2; P3 = 28; P4 = 3 2.1.1 Kritika dat a modelu Obr. č. 6: Diagnostické grafy modelu; A regresní graf; B graf vlivných bodů; C graf Jacknife reziduí; D graf predikovaných reziduí; E graf Atkinsonovy vzdálenosti; F graf reziduí. Experimentální body jsou dle grafu dobře proloženy regresní křivkou, grafy rezidují neindikují trendy, byl diagnostikován jeden vlivný bod, který však nebude z modelu odstraněn, protože nejde o outlier. 13
Tab. č. 11: Hodnocení modelu Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 1,514196196 Pravděpodobnost : 0,218499899 Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 1,332926578 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,513521547 Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 3,091336685 Pravděpodobnost : 0,218499899 Autokorelace je nevýznamná Znaménkový test reziduí Hodnota kritéria Sg : 0,74259526 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,457726759 V reziduích není trend. Model splňuje podmínku homoskedasticity a normality rozdělení reziduí, není v nich trend a nejsou autokorelována, což značí vhodnost použitého modelu. Tab. č. 12: Odhady parametrů modelu Odhady parametrů Parametr Směr. Dolní mez Horní mez odchylka P1 0,2778 0,01097542 0,2551957 0,3004043 P2 0,2371 0,002306687 0,23234929 0,24185071 P3 29,1085 3,730436221 21,42552278 36,79147722 P4 3,0148 0,432474316 2,124102473 3,905497527 Směrodatné odhady parametrů splňují Sillenovo pravidlo. 2.2 Gompertzův model Matematicky je Gompertzův model vyjádřen takto: y=p1*exp(-exp(-p2*(x-p3))) Zvolení počáteční odhady parametrů: P1=0; P2=0; P3=0. 14
Obr. č. 7: Diagnostické grafy modelu; A regresní graf; B graf vlivných bodů; C graf Jacknife reziduí; D graf predikovaných reziduí; E graf Atkinsonovy vzdálenosti; F graf reziduí. Dle regresní křivky je patrné, že body nejsou dobře proložené, v reziduích se vyskytuje trend, takže nejde o vhodný model. 15
Tab. č. 13: Hodncení modelu: Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 0,458711655 Pravděpodobnost : 0,498226699 Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 0,288330579 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,865744638 Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 14,44965836 Pravděpodobnost : 0,498226699 Autokorelace je významná Znaménkový test reziduí Hodnota kritéria Sg : 3,382705872 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,000717755 V reziduích je trend! Model splňuje podmínku homoskedasticity a normality rozdělení reziduí, je v nich trend a jsou autokorelována, model je tedy nevhodný. Tab. č. 14: Odhady parametrů modelu Odhady parametrů Parametr Směr. Dolní mez Horní mez odchylka P1 2,028483486 0,630478786 0,732515781 3,324451191 P2 2,845237964 0,315490675 2,196737595 3,493738333 P3 0,555337453 0,079797131 0,3913121 0,719362805 2.3 Logistický model Matematické vyjádření logistického modelu bylo získáno z literatury (Zweiterring et al., 1990). Model má tento tvar: y=p1/(1+exp(p2-p3*x)) Počáteční hodnoty parametrů: P1=0; P2=1; P3=10 16
2.3.1 Kritika dat a modelu Obr. č. 8: Diagnostické grafy modelu; A regresní graf; B graf vlivných bodů; C graf Jacknife reziduí; D graf predikovaných reziduí; E graf Atkinsonovy vzdálenosti; F graf reziduí. Dle regresní křivky je patrné, že body nejsou dobře proložené, v reziduích se vyskytuje trend, takže nejde o vhodný model. 17
Tab. č. 15: Kritika modelu Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 0,021910302 Pravděpodobnost : 0,882325967 Rezidua vykazují homoskedasticitu. Jarque-Berrův test normality Hodnota kritéria JB : 1,734781345 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0,420046159 Rezidua mají normální rozdělení. Waldův test autokorelace Hodnota kritéria WA : 8,650365686 Pravděpodobnost : 0,882325967 Autokorelace je významná Znaménkový test reziduí Hodnota kritéria Sg : 1,129489243 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,258691505 V reziduích není trend. Model splňuje podmínku homoskedasticity a normality rozdělení reziduí, model je však autokorelován, v reziduích dle znaménkového testu není trend. Tab. č. 16: Odhady parametrů modelu Odhady parametrů Parametr Směr. Dolní mez Horní mez odchylka P1 0,434326549 0,02130457 0,390534379 0,478118719 P2 3,170010292 0,032785038 3,102619682 3,237400902 P3 11,62633227 0,273860965 11,06340299 12,18926155 18
2.4 Porovnání statistického hodnocení tří modelů a výběr vhodného modelu Tab. č. 17: Statistické charakteristiky regrese testovaných modelů pro růst bakterie P. larvae. P. larvae Schnuteho model Gompertzův model Logistický model Vícenásobný korel. koef. R : 0,999797169 0,99885134 0,999476071 Koeficient determinace R^2 : 0,99959438 0,997703999 0,998952417 Predikovaný korel. koef. Rp : 0,999458445 0,996461905 0,998401416 Stř. kvadratická chyba predikce MEP 2,55307E-06 1,66798E-05 7,53627E-06 : Akaikeho informační kritérium : -373,8499592-325,5782502-348,3340556 Reziduální součet čtverců : 5,54547E-05 0,0003139 0,000143221 Průměr absolutních reziduí : 0,029931446 0,077221862 0,051860254 Reziduální směr. odchylka : 0,001489358 0,003474632 0,002347021 Reziduální rozptyl : 2,21819E-06 1,20731E-05 5,50851E-06 Šikmost reziduí : 0,273766896 0,052778261 0,358568124 Špičatost reziduí : 3,089688717 2,834152585 3,037531522 2.5 Porovnání výsledku s programem Origin 9 Tab. č. 18: Porovnání odhadů parametrů a RSC Originu 9 s QC Expertem Origin 9 QC Expert 2.9 Odhady Směrodatná odchylka Odhady Směrodatná odchylka parametrů parametru parametrů parametru P1 0,27757 0,01065 0,2778 0,01097542 P2 0,2371 0,00233 0,2371 0,00230669 P3 29,18098 3,5935 29,1085 3,73043622 P4 3,02327 0,41494 3,0148 0,43247432 RS C 5,54E-05 5,54547E-05 19
Regular Residual Mean"Mean" Mean 0,2 0,1 0,0 0,1 0,2 0,3 Cas (hod) Obr. č. 9: Regresní křivka vygenerovaná programem Origin 9 pro Schnuteho model a růst bakterie P. larvae. 0,004 0,002 0,000-0,002 0,0 0,1 0,2 0,3 Independent Variable Obr. č. 10: Graf reziduí vygenerovaný programem Origin 9 pro Schnuteho model a růst bakterie P. larvae. 2.6 Závěr Dle diagnostických grafů se proložení regresní přímky experimentálními body jeví jako vhodné, avšak z grafů reziduí a Jacknife rezidují je patrné, že v případě Gompertzova modelu a logistického modelu je v reziduích nápadný trend, což svědčí 20
o nevhodnosti modelu, to bylo také zjištěno pomocí statistických testů kritiky modelu. Na základě statistického hodnocení regrese byl dle MEP, AIC, směrodatné odchylky reziduí atd. zvolen jako nejlepší model Schnuteho. Vyčíslený model má tento tvar: y=0,2778 (0,011) *(1+3,0148 (0,432) *exp(-29,1085 (3,730) *(x-0,2371 (0,002) )))^(-1/(3,0148 (0,432) ) 3 Využití předdefinovaných modelů růstových křivek v programu Origin 9 Program Origin 9 obsahuje v módu Fitting Nonlinear fit, dále pak nastavení Category Growth/Sigmoidal 18 předprogramovaných funkcí, které jsou součástí instalace softwaru. Tyto funkce byly otestovány pro možný výběr vhodnějšího modelu pro růstovou křivku bakterie P. larvae. Tab. č. 19: Vyhodnocení modelů na základě náhledu na graf reziduí a spočítané RSC pro jednotlivé modely. Graf reziduí RSC BoltzlN nevhodný model n/a Boltzmann mrak 4,23E-05 DoubleBolzmann nevhodný model n/a DoseResp mrak 4,23E-05 BiDoseResp mrak 2,13E-05 Hill nevhodný model n/a Hill1 mírný trend 8,80E-05 Michaelis Menten nevhodný model n/a Logistic mírný trend 8,61E-05 Logistic5 nevhodný model n/a SGompertz výrazný trend n/a Slogistic1 výrazný trend n/a Slogistic2 výrazný trend n/a Slogistic3 výrazný trend n/a SRichards1 mrak 5,54E-05 SRichards2 mrak 7,39E-05 SWeibull1 nevhodný model n/a SWeibull2 trend n/a 21
Obr. č. 11: Porovnání grafů reziduí nejlepších modelů. A- BiDoseResp, B Schnuteho model (ADSTAT), C SRichards1, D Bolzmann. Graf reziduí nápadně připomíná graf reziduí Schnuteho modelu získaného z ADSTATu, výpočet modelu SRichards je v Originu naprogramován takto: SRichards1 model: if(d<1) y=(a^(1-d)-exp(-k*(x-xc)))^(1/(1-d)); if(d>1) y=(a^(1-d)+exp(-k*(x-xc)))^(1/(1-d)); if(d==1) y=nanum; 22
Tab. č. modelu. 20: Odhady parametrů modelu SRichards1 (Origin) a Schnuteho SRichards1 Schnuteho model model Odhad parametru Standardní chyba Odhad parametru Standardní chyba a 0,278 0,011 P1 0,2776 0,0107 xc 0,408 0,005 P2 0,2371 0,0023 k 29,093 3,733 P3 29,1810 3,5935 d 4,013 0,432 P4 3,0233 0,4149 3.1 Závěr Pro vyhodnocování růstových křivek lze použít i model SRichards1, který je přesněji zaprogramovaným Schnuteho modelem. Pro další vyhodnocování experimentálních dat lze použít i program Origin 9 s předdefinovaným modelem SRichards1. Program Origin však nenabízí tak detailní a komplexní funkce pro hodnocení odlehlých bodů, extrémů a statistických parametrů modelu jako program QC Expert 2.9. 23