Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie etody s latentními roměnnými a klasifikační metody Ing. Roman Slavík V Bohumíně 4.4. ŽDB a.s.
Příklad č. Vyočtěte algoritmem IPALS. latentní roměnnou z matice A [řádek, slouec]: A [,], A [,], A [3,] 3, A [,], A [,], A [3,], A [,3] 6, A [,3] 4, A [3,3]. atici řed zracováním standardizujte. 6 zdrojová matice A 4 3 ejdříve vyočteme vektor aritmetických růměrů x 4 a vektor směrodatných s odchylek - Standardizací obdržíme matici A - - Jako rvní odhad vektoru t byl zvolen rvní slouec standardizované matice : t - Po dosazení do vztahu (t t ) - t A a znormováním odle ( ) -/ získáme očáteční odhad vektoru míry řísěvků odhadu vektoru hlavní komonenty t. Dosazením za t ( ) A získáme odhad hlavní komonenty t. Iteračním oakováním tohoto ostuu dostaneme stabilní rozklad vektorů t a. Konverg. kritérium má tvar : d ( t nové t staré ) ( t nové t staré )( t nové t nové ) Výočet se ukončí když d / < - /
Výočet vektoru : inverze t t *,5,5 *,5, 5 * t * X * X,5,5 *,5 ormování vektoru : / æ ö ç / ( ) ç,5 *,5 ç è ø / * (,5),6667,6667 *,5,6667,3333,6667 Výočet t :,6667 inverze *,6667,3333,6667 *,3333,6667,6667 * * * X,6667,3333,6667,6667,3333 t,3333,3333,6667 Výočet se oakuje. Jednotlivé vyočítané vektory jsou uvedeny v tabulce č.. 3/
abulka č. - Vyočítané vektory latentních roměnných a zátěží. Číslo Vektor zátěží () ormovaný vektor Vektor latentních hodnot oakování zátěží () -,5 -,6667 -,3333 -,6667 -,3333 -,3334,6667,675 -,45 -,675,6396 -,464 -,6396 -,79 -,464,756 3,634 -,45 -,634,63 -,458 -,63 -,63 -,458,73 4,689 -,4574 -,689,688 -,4573 -,688 -,577 -,4573,75 5,68 -,459 -,68,68 -,459 -,68 -,564 -,459,754 6,68 -,4595 -,68,68 -,4595 -,68 -,56 -,4596,757 7,679 -,4596 -,679,68 -,4597 -,68 -,559 -,4597,756 8,68 -,4597 -,68,68 -,4597 -,68 -,559 -,4597,756 Po 8 krocích obdržíme : zátěžový vektor,679675 -,4596886 -,679675 vektor latentních roměnných t -,55935 -,4596886,75636 Pronásobením a odečtením dle E A - t získáme matici nevysvětlené -,3 -,57734,34 variability E,8867,788686 -,8867 -,7736 -,35,77356 Algoritmem IPALS byla sočtena rvní latentní roměnná. Příklad č. S oužitím vhodných kritérií určete nezbytný očet latentních roměnných, bylo-li z dat určeno: PRESS() S(), PRESS(), S(), PRESS() 3,5; S() 3,4; PRESS(3) 3,45; S(3) 3,39. PRESS()S() - suma x ki ze zdrojové matice PRESS(P) suma e ki z matice E red S(P) suma e ki z matice E K určení nezbytného očtu latentních roměnných oužijeme Woldovo kritérium založené na oměru hodnoty PRESS(P) a hodnoty S(P-). PRESS(P)/S(P-) P : PRESS()/S(), P : PRESS()/S(),35 P 3 : PRESS(3)/S(),,>,95 Woldovým kritériem byl stanoven očet latentních roměnných na základě výše uvedených hodnot na 3. Čtvrtá latentní roměnná není třeba, rotože hodnota kritéria vyšla větší (,) než,95. 4/
Příklad č.3 Odhadněte hodnotu chybějícího rvku A[,], jestliže výočtem z nekomletní matice byly určeny vektory :,54,43,54,54 t: -,34 -,735,76 Prvky zdrojové matice odovídající -té latentní roměnné lze rekonstruovat odle vzorce A red t vektor,54,43,54,54 vektor t -,34 -,735,76 -,749 -,5668 -,6888 -,6888 matice A red,3976 -,39 -,3778 -,3778,3,878,67,67 A[,] -,3 První odhad chybějící hodnoty činí -,3. Příklad č.4 Výočtem metodou PCA byly určeny vektory :,,458 -,35,987 :,96 -,38,87 -,5. Vyočtěte komunality a vyberte slouec, který nejlée charakterizuje celou matici. Prvek matice zátěží i říslušejícímu i-tému slouci zdrojové matice je mírou variability tohoto slouce osané -tou latentní roměnnou. Podíl variability daného slouce osané solečnými latentními roměnnými lze ak vyjádřit jako součet řísěvků jednotlivých latentních roměnných, tedy h i ( ) P ( i ) kde h i je komunalita ro i-tý slouec P očet latentních roměnných očet slouců zdrojové matice i jsou zátěže normované odle vztahu: i i i i Výočet normovaných zátěží vektor,,458 -,35,987 vektor,96 -,38,87 -,5 5/
Vyočítáme normované zátěže ro jednotlivé slouce ři dvou latentních roměnných., +,458 + (,35),,38, +,987 i i,458 +,458 + (,35),458,38, +,987 i i,35 +,458 + (,35),35,38 3 3, +,987 i i,987 +,458 + (,35),987,38 4 4, +,987 i i,96 + (,38) +,87,96,6877,96 + (,5) i i 3 i 4 i,96,38 + (,38) +,87,9,35,69,7546,38,6877 + (,5) i i,87 + (,38) +,87,87,6877 3,96 + (,5) i,96,5 + (,38) +,87,5,6877 4 + (,5) i Výočet komunalit P h ( ) +,9 +,54487,97 P h ( ) +,35 + (,4),43 P 4 h ( 4 ) 4 + 4,7546 + (,68),574,5487,4,567,68 Platí ravidlo, že čím je komunalita říslušného slouce větší, tím má slouec vlastnosti solečné s ostatními slouci zdrojové matice. V našem říadě čtvrtý slouec nejlée charakterizuje zdrojovou matici. 6/
Příklad č.5 Vysvětlete, roč vysvětlená variabilita je ři výočtu metodou FA vždy nižší, než ři výočtu metodou PCA. Rozdíl sočívá ve zůsobu rozkladu variability zdrojové matice. V říadě metody PCA je model ostaven na S H, (S - diagonální matice roztylů manifestních roměnných, H - diagonální matice komunalit), který ředokládá, že lze variabilitu zdrojové matice rerodukovat řesně. U metody FA latí, že variabilita je rozložena do dvou složek S H + L, (L - matice jedinečností, která ředstavuje část variability nevysvětlitelné solečnými faktory). ím, že u metody FA ředokládáme existenci nevysvětlené variability dosíváme vždy k nižším hodnotám vysvětlené variability než u metody PCA. Příklad č.6 Výočtem metodou kanonických korelací bylo zjištěno:,97x +,98X +,5X3 +,56X4,493Y,3Y r,83,6x -,5X +,95X3 +,56X4,493Y +,3Y r,5 Vyočtěte skuinový korelační koeficient a interretujte výsledky. Skuinový korelační koeficient R vyočteme ze vztahu R - ( - r )( r ) R,77 atice X je tvořena 4 slouci a matice Y dvěma. Skuinový korelační koeficient má hodnotu,77, což znamená, že 77 % variability dat jsme vysvětlili kanonickými korelačním koeficienty. S růstem roměnných X, X a X4, které mají stejný vliv, klesá význam roměnné Y a roste významně roměnná Y. S nadbytkem roměnné X3 se zvyšuje roměnná Y. Příklad č.7 Při monitoringu vstuních vod do naší akciové solečnosti jsou v chemické laboratoři analyzovány vzorky těchto odebraných vod. U těchto ovrchových vod se v naší laboratoři kromě jiných stanovují tyto arametry : Ph, Vodivost, L, RL, vrdost, -H4, -O3, -O, Cl, CHSK Cr, Ba, Fe, Sr, BSK5. Parametr AOX je stanovován externí laboratoří v Paskově. a datech v tabulce se okuste najít vztah mezi AOX a arametry stanovovanými v naší laboratoři. Kvalita ovrchové vody by byla známa již ři stanovení arametrů v naší laboratoři. 7/
VZ PH VODIV L RL VRD -H4 -O3 -O CL CHSK CR BA FE SR AOX BSK5 7,47 96,, 76, 3,,37 3,4,6 799,,,86,534,883,496 7, 7,58 67, 5, 38,5 3,9 5,6 5,,4 45, 7,8,77,659,98,38 4, 7,66 45, 7, 9, 9,5,4,,7 3,3 6,4,75,99,5,6 6,3 7,95 6, 3, 473,,3 7,6,,5 48,,,77,635,38,33 4, 6 7,87 38, 69, 43, 3,5 9,95,7,5 5,,8,343,5,63,458 3,5 356 7,8 6,3 37, 85,5 8, 3,85 7,,6 3,,,66,59,933,8 3, 359 6,98 83, 4, 65,,6,66,7,4 757, 3,,,396,64,35,5 36 6,8 49, 33, 336,5 9,9,95 3,3,7 34, 8,,59,84,8,36 6,3 36 7, 55,3, 385,,9,3 35,6,9 44,7 7,9,67,498,68,4,4 36 7,33 6,8 43, 995,5,,9 7,6,3 3, 8,59,59,69,865,4 5, 363 7,6 44, 49, 33, 9,5,48 3,5,8 3, 9,58,5,744,96,,5 74 7,69 7, 4, 9, 9, 5,65,8,5 344,,,4,33,96,6 3,5 745 7,34 9, 5, 8, 7,,75 5,9,8 56, 8,,96,44,46,454,5 746 7,8 6, 5, 7,5 3,7,48 9,9,6 34,4 6,,78,43,96,47 3,5 747 7,46 56,3 8, 369,,,4 36,,7 4,3 6,,98,48,9,34,5 748 7,66 74,6 3, 95, 9,6 5,7,,5 3,,,3,35,, 3,5 749 7,46 33,6 4, 38, 7,,65,,,7 6,,65,36,88,, 55 7,77 64,7 4, 86, 8,9,68 8,7,5 33, 38,65,7,68,94,56 6, 58 6,89 99, 33, 56,5 9,8, 3,8,6 5,,3,6,73,9,33 6,6 59 6,79 6,7, 686, 3,,4,4,8 34,8 4,44,66,639,34,35 6,7 6 6,78 6, 5, 46,5,,64 3,3,63 45,,95,4 7,75,33, 3, 6 7,33 65, 6, 53, 9,,7 9,5,37 33, 3,87,58,5,48,3 5,7 6 6,85 7,8 3, 73, 5,6,5 8,6,6 3,9,3,48,39,54, 5, 3663 7,75 98,8 45, 49,,7,8 8,,9 45, 3,,6,594,3,9 5,3 399 7,95 3, 39, 369, 5,48, 7,4,9 53,,,88 8,94,578,74 6, Příklad č.8 Jeden objekt je charakterizován metrickými znaky (,), druhý (3,8), třetí (4,9), čtvrtý (,4) a átý (,5). Vyočtěte matici vzdálenosti v Euklidově metrice a dokumentujte výočet shlukování některou z oužívaných metod. Výsledky interretujte graficky. Postuy aglomerativní shlukové analýzy lze neusořádanou množinu objektů charakterizovaných náhodnými vektory ostuně usořádat do tříd až ke konečnému stavu, kdy se všechny objekty sojí do jediné třídy. Výše uvedené vlastnosti objektů (blízkost či odobnost) osuzujeme odle vzdálenosti objektů v -rozměrném rostoru znaků nejjednodušším tyem Euklidové metriky, která je definovaná vztahem d E (X k, X l ) [ (x k x l ) ro..] /. Vzdálenost určená odle zásady nejbližšího souseda (nejbližší jsou ty třídy, které mají nejmenší vzdálenost mezi dvěma nejbližšími objekty (objekt můžeme cháat jako třídu)) se vyočte odle vzorce D (S r, S s ) min. d (X k, X l ). x x x 3 x 4 x 5 x x x 3 x 4 x 5 atice vzdáleností x 3 x 3 x 33 x 34 x 35 x 4 x 4 x 43 x 44 x 45 x 5 x 5 x 53 x 54 x 55 8/
,36 atice vzdáleností,36,44 8,6 7,8,96 8,544 8,6,44 Hierarchical Cluster Analysis Comlete Linkage Amalgamation Stes Euclidean Distance Ste umber of Similarity Distance Clusters ew umber of obs. clusters level level joined cluster in new cluster 4 89.7.7 3 3 88.96.93 4 5 4 3 76.4 4.53 3 4. 8.96 4 5 Final Partition umber of clusters: umber of Within cluster Average distance aximum distance observations sum of squares from centroid from centroid Cluster 5 377.749 8.5.697 Grafické znázornění jednotlivých objektů Z grafického ohledu vylývá, že objekty ostuem nejbližšího souseda vytvářejí nejdříve dva shluky a to -3 a 4-5 dalším ostuem je objekt č. řiojen ke shluku -3 a následně tento shluk vytvoří jeden shluk se shlukem 4-5. Byly stanoveny vzdálenosti mezi jednotlivými objekty formou matice vzdálenosti a metodou shlukové analýzy klasifikovány objekty ostuem nejbližšího souseda. Příklad č.9 onitorování kvality odzemních i ovrchových vod. 9/
onitoring je rováděn na území zahrnující hutní odval (vlastník ŽDB), skládku tuhých růmyslových odadů (vlastník ŽDB) a městskou skládku komunálního odadu (vlastník BS), včetně řilehlých území. Veškeré terénní, vzorkovací a laboratorní ráce jsou finančně i časově velmi náročné. Rozhodněte, zda je možné redukovat očet odběrových míst a charakterizovat jednotlivé vrty menším očtem stanovovaných ukazatelů. Data : Bylo vzorkováno vrtů a jedna voda ovrchová. VZOREK OZ PH VODIVOS -F CL CHSK CR B BA CU FE Z S 3438OD 6,98 5,, 386, 6,,3,65,9 7,3 7,6,8,65 3439OD 3 7,5 364,,55 77, 49, 3,47,59,8 6,6,7,9,394 344OD 4 7, 49,,39 386, 53, 4,,4,38 6,,57,46,7 344OD 5 8, 366, 3,6 7, 3, 4,,69,4,67,87,7,4 344OD 7 6,57 344,,5 737, 5,,98,484,3 93, 5,97,,7 3443OD 8 7,76 35,, 666,9 68,,4,3,4 3,6 3,4,,57 3444PV 3 6,87 5,,48,9 3, 4,7,63, 4,3,5,6,438 3445PV 7,7 4, 5,75 8,8 4, 6,3,68,9,4,58,3,9 3446PV 5 7,5,,3 8,73 36,,55,69,65 9,5 3,46,377,467 3447PV 6 6,77 7,,48 8,8 7,,74,,4 74,7 4,9,45,68 3448BC 7,6 56,,38 63,8,,43,34,,5,363,48,8 345PV 6,7 366,,5 9,6 4,,48,7,54,9 4,3,45,6 345PV 7, 96,3,9,6 35, 3,86,44,8,77,3,5,49 345PV 5 7,5 9,,88 4,,,437,68,9,95,85,3,55 3453PV 9 6,77 57,7,55 75,5,,39,3,73,,6,,8 3454PV 6,34 348,,9 7, 3, 7,34,8,7,643,69,73,97 3455PV 6,9 66,4,69 63,,,949,,8,,9,8,78 3456PV 5,85 375, 4, 3, 4,,39,67,6 96,6 3,65,74,57 3457PV 4 5,67 37, 5, 4, 3,,4,59,4 53,5 4,,8,47 3458PV 3 6,68 8,,5 473,8 43,,375,84,7,984,5,36,84 3459PV 4 6,56 6,7,94 98,8 4,,436,3,3 34,9 3,75,4,8 Postu ři analýze dat : ejdříve rovedeme růzkumovou analýzu dat. ím odstraníme říadné chyby. Analýza korelační matice a matice arciálních korelačních koeficientů mezi vlastnostmi. Zvolíme metodu. V našem říadě zvolíme faktorovou analýzu a metodu hlavních komonent. Data standardizujeme, rotože nejsou vyjádřena ve stejných jednotkách. Vyočteme latentní roměnné Určíme očet signifikantních latentních roměnných. Analyzujeme matici zátěží a matici latentních roměnných. Analyzujeme fyzikálně-chemický smysl latentních roměnných. Interretujeme výsledky vzhledem k cíli analýzy. /