6. Validace nové analytické metody Vzorová úloha 6. Postup validace a regresní diagnostika Na úloze V6.4 Validace stanovení amonných iont$ v pitných vodách provete ovení þasov nenároþné metody stanovení obsahu amonných iont$ y soupravou Spektroquant, a to srovnáním se standardní metodou x stanovení amoniaku podle ýsn - ISO 75-, která je však nároþná na provedení. Pro úþely vyhodnocení se pedpokládá, åe rozptyl obsahu u standardní metody je zanedbatelný. () Vyšetete statistickou významnost úseku b (má být = ). () Odstrate z dat odlehlé hodnoty. (3) K jakým závr$m vede kombinovaný test úseku a smrnice? ešení:. Návrh modelu: navrhneme regresní model (pímky) [ Z, u kterého budeme testovat nulovou hypotézu H : =, =.. Pedbåná analýza dat: poloha a promnlivost promnných y, x se posuzuje na základ pr$mru a smrodatné odchylky hodnot kaådé promnné. Pearson$v párový korelaþní koeficient ukazuje vysokou korelaci promnných y a x. Promnná Pr$mr Smrodatná Párový korelaþní Spoþtená odchylka koeficient hladina významnosti y.443e-.996e-. ----- x.48e-.848e-.9958. 3. Odhadování parametr$: klasickou metodou nejmenších þtverc$ (MNý) byly nalezeny odhady parametr$, úseku a smrnice. Student$v t-test ukázal, åe úsek (absolutní þlen) je statisticky nevýznamný, zatímco smrnice je statisticky významná, kdyå t.95(-) =.. Parametr Odhad Smrodatná H : b = vs. H : b C j A j Spoþtená odchylka t-kritérium hypotéza H je hlad. význam. b.43.566.8436 Akceptována.8 b.97.933 47.68 Zamítnuta. 4. Základní statistické charakteristiky: párový korelaþní koeficient r ukazuje, åe navråený lineární regresní model je statisticky významný. Vysoká hodnota koeficientu determinace D (= 99.7 %), pedstavující procento bod$ vyhovujících regresnímu modelu, ukazuje, åe všechny body výteþn korespondují s modelem pímky. Stední kvadratická chyba predikce MEP a Akaikovo informaþní kritérium AIC se uåívají k rozlišení mezi nkolika navråenými modely. Za optimální se povaåuje model, pro který dosahuje MEP a AIC minimální hodnotu. Vícenásobný korelaþní koeficient, r :.99585 Koeficient determinace, D[%] : 99.7 Predikovaný koeficient determinace, R P :.9944 Stední kvadratická chyba predikce, MEP : 4.46E-4 Akaikovo informaþní kritérium, AIC : -66.78 5. Regresní diagnostika: obsahuje pom$cky a postupy pro interaktivní analýzu (a) dat, (b) modelu, (c) metody, coå jsou sloåky tzv. regresního tripletu. Kritika dat: vrohodnost nalezených odhad$ parametr$, lze posoudit na základ grafu regresního modelu (obr. 6.-a). (a) Analýza klasických reziduí není píliš spolehlivá a nemusí indikovat siln odlehlé hodnoty. Grafická analýza *G XU *[ (obr. 6.-b) je schopna indikovat podezelé body, trend a heteroskedasticitu. Míry polohy a rozptýlení klasických reziduí by mly dosahovat hodnot, blízkých experimentálnímu šumu. Odhad smrodatné odchylky s(e) se totiå blíåí svou velikostí experimentální chyb, kterou je zatíåena závisle promnná. Odhad šikmosti a špiþatosti nedokazují Gaussovo normální rozdlení reziduí, normalitu.
DT C )TCH TGITGUPÈJQ OQFGNW #$$ DT D #PCNØ\C MNCUKEMØEJ TG\KFWÈ #$$ Bod Mená Predikovaná Smrodatná Klasické Relativní hodnota hodnota odchylka reziduum reziduum i yexp, i yvyp, i s(y vyp, i) ei er, i.5e-.493e- 5.4943E-3-6.499E-3-4.386E+.E-.493E- 5.4943E-3-4.987E-4 -.347E+ 3.E-.493E- 5.4943E-3 -.493E- -.493E+ 4 4.E-.3336E- 5.4674E-3.6664E- 4.659E+ 5.4E- 3.3475E- 5.39E-3-9.475E-3-3.9479E+ 6 3.E- 3.4397E- 5.389E-3-4.3967E-3 -.4656E+ 7 3.5E- 3.538E- 5.959E-3-3.838E-4-9.966E- 8.8E- 3.997E- 5.37E-3 -.97E- -4.596E+ 9 3.E- 4.73E- 5.3E-3 -.53E- -4.784E+ 8.E- 7.495E- 4.7793E-3 7.485E-3 8.5957E+.43E-.3947E- 4.6E-3 3.594E-3.468E+.4E-.399E- 3.939E-3.337E-5 5.673E-3 3.6E-.639E- 4.6E-3 -.9E-3-7.58E- 4 3.E-.8694E- 4.968E-3 3.557E-.887E+ 5 3.5E- 3.538E- 4.4666E-3-3.7676E-4 -.353E- 6 3.55E- 3.546E- 4.9977E-3 3.538E-3 9.9666E- 7 3.88E- 3.567E- 5.579E-3 3.93E- 8.93E+ 8 4.3E- 4.98E- 6.49E-3.936E-3.7693E- 9 4.96E- 4.897E- 7.6E-3 6.83E-3.667E+ 5.5E- 5.44E- 8.697E-3 9.5895E-3.7435E+ 5.E- 5.767E- 8.6668E-3-5.67E- -.9E+ Reziduální souþet þtverc$, RSC Pr$mr absolutních hodnot reziduí, M e Pr$mr relativních reziduí, M erel Odhad reziduálního rozptylu, s (e) Odhad smrodatné odchylky reziduí, s(e) Odhad šikmosti reziduí, g (e) Odhad špiþatosti reziduí, g (e) : 6.77E-3 :.937E- :.87E+ : 3.48E-4 :.83E- : -6.838E- : 5.755E+ (b) Analýza ostatních reziduí: Jackknife rezidua indikují odlehlé body, z diagonál-ních prvk$ H projekþní ii matice H a diagonálních prvk$ H mii zobecnné projekþní matice H m pouze extrémy. Ostatní druhy reziduí a kritéria v tabulce indikují obecn vlivné body (znaþeno hvzdiþkou u hodnoty). Jackknife rezidua e J,i ukazují, åe body þ. 4 a jsou odlehlé, stejn tak i Cookova vzdálenost D ; Atkinsonova vzdálenost A na þ. 4, 7, ; kritérium DF i i i na þ., vrohodnostní vzdálenosti LD(b), LD(s ) na þ. a LD(b, s ). Diagonální prvky H projekþní matice H i i i ii ukazují na extrémy þ.,, a diagonální prvky zobecnné H mii projekþní matice Hm pak na extrémy þ.. INDIKACE VLIVNÝCH BODU: (* indikuje odlehlý nebo vlivný bod) Bod Standardizované Jackknife Predikované Diagonální reziduum reziduum reziduum prvky
i esi eji epi Hii -3.786E- -3.6957E- -7.58E-3 9.936E- -.873E- -.7948E- -5.4336E-4 9.936E- 3-6.6955E- -6.595E- -.67E- 9.936E- 4 9.73E- 9.6874E-.8353E- 9.7E- 5-5.56E- -5.399E- -.38E- 8.794E- 6 -.558E- -.4889E- -4.844E-3 8.6768E- 7 -.848E- -.7989E- -3.4847E-4 8.6345E- 8-6.954E- -6.873E- -.34E- 8.463E- 9-8.856E- -8.834E- -.665E- 8.5E- 4.56E- 3.965E- 7.586E-3 7.3E-.7E-.96E- 3.78E-3 5.3333E- 5.8773E-4 5.75E-4.854E-5 4.769E- 3 -.83E- -.546E- -.53E-3 5.48E- 4.9E+.949E+* 3.77E- 5.6839E- 5 -.578E- -.3E- -4.4E-4 6.48E- 6.433E-.99E- 3.839E-3 7.6894E- 7.8458E+.983E+ 3.4659E- 7.8758E- 8 7.453E- 6.858E-.358E-3.64E- 9 3.7988E- 3.76E- 7.465E-3.5783E- 5.955E- 5.8466E-.994E-.48E-* -3.333E+ -5.34E+* -6.853E-.34E-* Bod Zobecnné diag. Cookova Atkinsonova Vliv na prvky vzdálenost vzdálenost predikci i Hmii Di Ai DFi 9.9767E- 7.33E-3 3.646E- -.83E- 9.975E- 4.36E-5.7573E- -8.946E-3 3.434E-.966E- 6.567E- -.E- 4.37E- 4.773E- 9.558E- 3.84E- 5.74E-.446E- 5.43E- -.6687E- 6 8.99E- 3.958E-3.3647E- -7.67E- 7 8.636E-.639E-5.745E- -5.53E-3 8.73E-.E- 6.3739E- -.68E- 9.898E- 3.4587E- 8.583E- -.645E- 7.837E- 6.9E-3 3.36E-.95E- 5.535E-.4E-3.4347E- 4.6548E- 4.769E- 8.6356E-9 3.946E-4.79E-4 3 5.994E- 3.44E-4 7.644E- -.48E- 4.5598E-.88E-*.668E+ 5.3883E- 5 6.44E-.534E-5.6559E- -5.376E-3 6 7.89E-.7389E-3.77E- 5.746E- 7.4395E-.4563E-*.787E+ 5.7985E- 8.663E- 3.694E-4 7.674E-.489E- 9.643E-.35E- 4.954E-.668E-.538E- 4.4394E- 9.37E-.977E- 6.874E-*.679E+* 8.5E+* -.76E+* Bod Vrohodnostní vzdálenosti i LD(b) i LD(s ) i LD(b,s ) i.697e-.767e- 3.356E- 9.3364E-5.455E-.4639E- 3 5.76E- 6.469E-3 5.598E- 4.5E- 4.346E-5.573E- 5 3.943E-.4E- 4.6E- 6 6.84E-3.76E-.786E- 7 3.5677E-5.4575E-.469E- 8 4.858E- 5.6554E-3 5.37E- 9 7.637E- 4.637E-4 7.64E-.3749E-.6655E-.9869E-
.53E-3.55E-.49E-.989E-8.4593E-.4593E- 3 7.7E-4.398E-.4663E- 4.655E- 3.973E- 7.973E- 5 3.3675E-5.4569E-.46E- 6 3.8434E-3.44E-.6E- 7 3.948E-.4454E- 6.8E- 8 7.7E-4.4333E-.5E- 9.987E-.755E- 4.638E- 9.795E- 9.346E-3.458E- 3.43E+ 9.79E+*.899E+* (c) Grafy vlivných bod (obr. 6.-) jsou schopny indikovat pítomnost odlehlých hodnot a extrém$. Graf predikovaných reziduí ukazuje na odlehlé body þ., 4, 7. Pregibon$v graf ukazuje na siln vlivný bod þ.. Williams$v graf indikuje þ. 4 a jako odlehlé body a jako extrémy þ.,. McCulloh$v-Meeter$v graf dokazuje odlehlé body þ. 4, 7, a extrémy þ.,. Koneþn L-R graf dokazuje odlehlé body þ. 4, 7, a souþasn extrém þ.. Lze uzavít, åe body þ. 4, jsou vtšinou diagnostik indikovány jako odlehlé. Obr. 6.- Grafy vlivných bod$, vlevo, graf predikovaných reziduí, a vpravo, Pregibon$v graf, ADSTAT. Obr. 6.- Grafy vlivných bod$, vlevo, Williams$v graf, a vpravo, McCulloh$v-Meeter$v graf, ADSTAT.
Obr. 6.- Grafy vlivných bod$, L-R graf, ADSTAT. (d) Indexové grafy (obr. 6.-3) upozorují pouze na podezelé body. Andrews$v indexový graf a graf normovaných reziduí ukazují na podezelé body þ. 4, 7 a. Indexový graf prvk$ H projekþní matice pak na podezelé extrémy þ.. Obr. 6.-3 Indexové grafy, vlevo: Andrews$v graf, a vpravo: graf normovaných reziduí, ADSTAT. Obr. 6.-3 Graf prvk$ H-projekþní matice, ADSTAT. (e) Rankitové grafy (obr. 6.-4) ukazují vedle normality rozdlení dotyþných reziduí i na vlivné (zde odlehlé) body.
Obr. 6.-4 Rankitové grafy, vlevo, graf normovaných reziduí, a vpravo, Andrews$v graf, ADSTAT. Graf normovaných reziduí ukazuje na þ. a na þ. 7 a 4 jako na odlehlé body. Andrews$v graf pedstavuje þ. jako odlehlý bod. Graf predikovaných reziduí a graf Jackknife reziduí þ., 4, 7 jako odlehlé body. Obr. 6.-4 Rankitové grafy, vlevo, graf predikovaných reziduí, a vpravo, graf Jackknife reziduí, ADSTAT. Model: Parciální regresní grafy a parciální reziduální grafy jsou urþeny pro vícerozmrné lineární regresní modely a nemají proto smysl u jednorozmrného regresního modelu. Vhodnost modelu se posuzuje pímo v grafu obsahujícím data a pr$bh modelové funkce. Je patrné, åe v tomto pípad je pímka akceptovatelná a data nevykazují nelineární pr$bh. Metoda: do této þásti patí vyšetení splnní základních pedpoklad$ metody nejmenších þtverc$ (MNý), za kterých by mla metoda vést k nejlepším lineárním nestranným odhad$m regresních parametr$: Fisher$v-Snedecor$v test významnosti regrese potvrdil, åe navråený model je pijat jako významný. Scottovo kritérium multikolinearity nemá smysl u jednorozmrného regresního modelu. Cook$v-Weisberg$v test heteroskedasticity dokazuje, åe rezidua vykazují heteroske-dasticitu (nekonstantnost rozptylu). Jarque$v-Berra$v test normality reziduí ukazuje, åe klasická rezidua nevykazují Gaussovo rozdlení. Wald$v test autokorelace ukazuje, åe klasická rezidua nejsou autokorelována. To by bylo totiå váåným upozornním ke zhodnocení provedeného experimentu, åe došlo k narušení podmínek. Mnohdy však m$åe zp$sobit heteroskedasticitu i jeden odlehlý bod. Znaménkový test prokazuje, åe znaménko klasických reziduí se dostateþn stídá, a proto rezidua nevykazují åádný trend. TESTOVÁNÍ REGRESNÍHO TRIPLETU (DATA + MODEL + METODA): Fisherv-Snedocorv test významnosti regrese, F exp : 73.5 Tabulkový kvantil, F -. (m-, n-m) : 4.387 Závr: Navråený model je pijat jako významný. Spoþtená hladina významnosti :. Scottovo kritérium multikolinearity, M : 3.4E-5 Závr: Navråený model je korektní.
Cookv-Weisbergv test heteroskedasticity, S f : 9.5 Tabulkový kvantil, -. () : 3.845 Závr: Rezidua vykazují heteroskedasticitu. Spoþtená hladina významnosti :. Jarquev-Berrav test normality reziduí, L(e) : 8.754 Tabulkový kvantil, -. () : 5.995 Závr: Normalita není pijata. Spoþtená hladina významnosti :.6 Waldv test autokorelace, W a :.5898 Tabulkový kvantil, -. () : 3.845 Závr: Rezidua nejsou autokorelována. Spoþtená hladina významnosti :. Znamékový test, D t :-.887 Tabulkový kvantil, N -./ :.6449 Závr: Rezidua nevykazují trend. Spoþtená hladina významnosti :.88 Graf autokorelace (obr. 6.-5) vykazuje náhodný mrak bod$ reziduí. Graf heteroskedasticity (obr. 6.-5) vykazuje trend, klín, coå odpovídá heteroske-dasticit, nekonstantnosti rozptylu. Obr. 6.-5 Vlevo, graf autokorelace, a vpravo, graf heteroskedasticity, ADSTAT. 6. Konstrukce zpesnného modelu: (a) Po odstranní bod$ þ. 4, 7, byly nalezeny nové odhady parametr$ zpesnného modelu. Parametr Odhad Smrodatná H : b = vs. H : b C Spoþtená j A j odchylka t-kritérium hypotéza H je hlad. význam. b.639.4.649 Zamítnuta.8 b.9434.9356.5 Zamítnuta. Zpesnný model (v závorce je uveden odhad smrodatné odchylky parametru) y =.639 (.4) +.943 (.94) x je doloåen statistickými charakteristikami: stední kvadratická chyba predikce MEP a Akaikovo informaþní kritérium AIC dosáhly niåších hodnot, þímå dokazují kvalitnjší model neå pedešlý. Vícenásobný korelaþní koeficient, r :.999 Koeficient determinace, % D : 99.84 Predikovaný koeficient determinace, R P :.999 Stední kvadratická chyba predikce, MEP : 6.534E-5 Akaikovo informaþní kritérium, AIC : -74.3 Rezidua nyní vykazují normální rozdlení a nevykazují trend, stále však vykazují heteroskedasticitu, a proto lze doporuþit uåití metody váåených nejmenších þtverc$. (b) Uåitím statistické váhy (w i= /y i ) kompenzujeme heteroskedasticitu v datech. Obdråíme nové správnjší odhady parametr$. Parametr Odhad Smrodatná H : b = vs. H : b C j A j Spoþtená odchylka t-kritérium hypotéza H je hlad. význam. b.9.974.78 Akceptována.97
b.9467.7378.947 Zamítnuta. Opravený model má tvar, (v závorce je vådy uveden odhad smrodatné odchylky parametru): y =.3 (.97) +.946 (.73) x. Jelikoå došlo ke sníåení rozhodujících kritérií, stední kvadratické chyby predikce MEP a Akaikova informaþního kritéria AIC, lze povaåovat tyto odhady za lepší neå pedešlé. Pearson$v korelaþní koeficient r, a tím pádem i koeficient determinace D vychází nepatrn horší neå u pedešlého odhadu bez statistické váhy. Vícenásobný korelaþní koeficient, r :.95544 Koeficient determinace, % D : 9.87 Predikovaný koeficient determinace, R P :.9337 Stední kvadratická chyba predikce, MEP : 5.79E-5 Akaikovo informaþní kritérium, AIC : -8.63 7. Zhodnocení kvality modelu: nalezený model má tvar (v závorce je vådy uveden odhad smrodatné odchylky parametru) y =.3 (.97) +.946 (.73) x a intervalový odhad parametr$ úseku a smrnice bude a po dosazení vyjde D V &D D V &D.3 -..97.3 +..97 -.5.63. Tento interval spolehlivosti úseku regresní pímky zahrnuje nulu, takåe lze úsek povaåovat za nulový. Analogicky dosazením do intervalu spolehlivosti smrnice obdråíme nerovnost a po vyþíslení.946 -..73.946 +..73.79.. Jelikoå tento interval obsahuje jedniþku, lze povaåovat smrnici za jednotkovou. Lze uzavít, åe úsek regresní pímky lze povaåovat za nulový = a smrnice není významn odlišná od jedniþky. Výsledky nové metody se proto statisticky významn neliší od metody standardní.