Fakulta chemicko technologická Katedra analytické chemie Licenční studium statistické zpracování dat Analýza vícerozměrných dat Ing. Pavel Valášek Školní rok
OBSAH ÚVOD DATA EDA EXPLORATORÍ AALÝZA 4 PCA AALÝZA HLAVÍCH KOMPOET 8 4. Určení počtu hlavních komponent 8 4.. Porovnání metod SVD a IPALS 4.. Tabulka hodnot hlavních komponent (SVD) 4. Závěr 5 FA FAKTOROVÁ AALÝZA 4 5. Tabulka Komunalit pro zvolený počet faktorů 4 5. Závěr 5 5.. Tabulka komponentních vah pro dva faktory 5 5.. Tabulka komponentních vah pro tři faktory 5 6 AALÝZA SHLUKŮ 5 6. Tabulka rozhodčích kritérií 8 6. Závěr 8
Úvod PRECHEZA a.s. je výrobcem termických železitých pigmentů, které se vyrábí přímou kalcinací monohydrátu síranu železnatého. Ve výstupní analytické kontrole se sleduje a analyticky stanovuje celá řada vlastností (proměnných), jejichž stanovení může být časově a pravděpodobně i ekonomicky a finančně náročné. Statistickou analýzou vícerozměrných dat je možné posoudit, které sledované vlastnosti jsou si podobné či které spolu korelují a na základě těchto závěrů lze počet měřených vlastností snížit. Pro statistickou analýzu byla použita metoda PCA (hlavních komponent) a FA (faktorová analýza), které jsou dominantními metodami této analýzy. Pro provedení této statistické analýzy byly požity programy: MIITAB., SCA, CSS, OPGM. Data Vzhledem k rozsáhlosti hodnot (-proměnných a 9 objektů) zde nejsou uvedeny, ale soubor s těmito daty je součástí této práce. Pro vlastní zpracování dat bylo použito pouze proměnných, protože proměnná (sytost pigmentu) je matematickou kombinací odstínových parametrů a* a b*. EDA Exploratorní analýza Exploratorní analýza těchto vícerozměrných dat provedena nebyla, protože výběr je příliš rozsáhlý, a obrázkové grafy (hvězdičky) se pro proměnných stávají nepřehledné. Pro základní pohled na zpracovávané hodnoty byly pro jednotlivé proměnné vyčísleny základní parametry jako jsou průměr, medián, příslušné intervaly, atd. Descriptive Statistics Variable: [%].468..4.8..6..4.8..4.5 st Quartile rd Quartile.5.444..47.4847.4E-.8665.89794 9.4..4.7.4.485.5486.5 Obr. - (MIITAB) Základní statistika pro (%)
Descriptive Statistics Variable: vod. soli [%.7..5.9..7..5..5.4 st Quartile rd Quartile.97.94..6699.4988.E-.8568.877 9.4...6.5.447.877.4 Obr. - (MIITAB) Základní statistika pro vodosoli (%) Descriptive Statistics Variable:.8. 6 4 8 6 5 5 st Quartile rd Quartile.95 5.58. 8.565 8.64 49..74697.99794 9. 9.. 4. 6..84 4.748. Obr. - (MIITAB) Základní statistika pro (µs/cm)
Descriptive Statistics Variable: ph.8. 4.7 5. 5.5 5.9 6. 6.7 7. 6. 6. 6. st Quartile rd Quartile 6.99.4684 6. 6.799.56.657 -.9E- -.9E- 9 4.6 5.8 6. 6.6 7. 6.499.5679 6. Obr. -4 (MIITAB) Základní statistika pro ph Descriptive Statistics Variable: zbytek A 5.884..4..6..8.4.4...4.5.6.7.8 st Quartile rd Quartile.5E- 8.E-.E-.6E- 9.E- 8.E-5.5.7968 9.E- 9.E-.4E-.E- 4.E-.74E- 9.97E-.5E- Obr. -5 (MIITAB) Základní statistika pro Zbytek A (%) 4
Descriptive Statistics Variable: spot. ol. 5.8. 9.9.5..7..9.8.85.9.95 st Quartile rd Quartile.87.575.8.8766.556.94.84.4887 9 9.6.6.8..9.954.654.9 Obr. -6 (MIITAB) Základní statistika pro spotřeba oleje (g/g) Descriptive Statistics Variable: disperg. 5.5. 4 5 6 7..5 4. st Quartile rd Quartile.94.7..5694.846.65-4.E- -6.E- 9.. 4. 5. 7..7446.4 4. Obr. -7 (MIITAB) Základní statistika pro dispergaci (RD 6 µm) 5
Descriptive Statistics Variable:.4.58 89.5 9.5 9.5 9.5 9.5 94.5 95.5 9.5 9.5 9.45 9.55 9.65 9.75 9.85 9.95 st Quartile rd Quartile 9.489.65 9. 9.66.77.66.555-4.E- 9 89.6 9.8 9.6 9.6 96. 9.87.47 9.9 Obr. -8 (MIITAB) Základní statistika pro velkost částic pod µm(%) Descriptive Statistics Variable: L*.4. 49.5 49. 49.5 49.5 49.65 49.8 49.65 49.75 49.85 49.95 49.45 49.45 49.45 st Quartile rd Quartile 49.74.87 49.7 49.9..69E- -.5E-.644 9 49. 49. 49.4 49.47 49.84 49.498.49 49.4 Obr. -9 (MIITAB) Základní statistika pro L* - jasová složka 6
Descriptive Statistics Variable: 4.9...8.4..6...4.5 st Quartile rd Quartile.79.597.885.4487.55869.77 4.887 7.99 9....46.7.5455.68.5 Obr. - (MIITAB) Základní statistika pro celková barevná diference Descriptive Statistics Variable: 4.886. 9.5..5 4. 5.5 7. 8.5 7. 7.4 7.5 7.6 7.7 7.8 7.9 8. st Quartile rd Quartile 7.4.54 7.8 7.5696.685.876-4.46 7.97 9 9.5 7.59 7.86 8.6 8.85 7.7989.86 7.95 Obr. - (MIITAB) Základní statistika pro sytost pigmentu 7
Z diagnostik pro, a Spotř.oleje je možné vypozorovat, že pigment, který byl vyráběn termickým způsobem na kalcinační lince není zcela stejných vlastností. 4 PCA Analýza hlavních komponent 4. Určení počtu hlavních komponent Pomocí grafických znázornění lze určit ty proměnné, které je třeba vyšetřovat. Tyto grafy také ukazují tzv. redundantní (nadbytečné) proměnné,které by bylo možno ze stanovovaných parametrů vypustit, a tím by mohlo pravděpodobně dojít i k zlevnění analytické části. Je možné i detekovat různé shluky objektů navzájem si podobných vlastností. 8
Principal Components Eigenvalue (Scree) Plot Principal Components Eigenvalue (Scree) Plot 4 eigenvalues eigenvalues 4 6 components 8 4 5 components 6 7 8 Obr. 4- (SVD) Indexový graf počtu (-ti) hlavních komponent Principal Components Eigenvalue (Scree) Plot Obr. 4- (SVD) Indexový graf počtu (8-mi) hlavních komponent Principal Components Eigenvalue (Scree) Plot eigenvalues eigenvalues components 4 5 6 components 4 5 Obr. 4- (SVD) Indexový graf počtu (6-ti) hlavních komponent Obr. 4-4 (SVD) Indexový graf počtu (5-ti) hlavních komponent 9
Principal Components Loading Plot Principal Components Loading Plot second component.... -. -. -. -.4 -.5 spot. ol vod. sol disperg. ph L* zbytek A second component.6.5.4.... -. -. disperg. spot. ol ph -.5 -.4 -. -. -... first component...4 -.5. first component.5 Obr. 4-5 (SVD) Graf komponentních vah ( ti) proměnných Obr. 4-6 (SVD) Graf komponentních vah (8 mi) proměnných Principal Components Loading Plot Principal Components Loading Plot.. second component -. spot. ol second component -. -.8 -.8 -.5. first component.5 -.5. first component.5 Obr. 4-7 (SVD) Graf komponentních vah (6 ti) proměnných Obr. 4-8 (SVD) Graf komponentních vah (5 ti) proměnných
Principal Components Biplot Principal Components Biplot 4 second component - - spot. disperg. ol zbytek L* ApH vod. sol second component - - spot. disperg. ol ph - - - -5 first component -8 - first component Obr. 4-9 (SVD) Dvojný graf ( ti) proměnných a 9 objektů Obr. 4- (SVD) Dvojný graf (8 mi) proměnných a 9 objektů PrincipalComponentsBiplot Principal Components Biplot nt n e m p o c o n d s e c o - spot.ol second component - - - -8 - firstcomponent - first component 8 Obr. 4- (SVD) Dvojný graf (6 ti) proměnných a 9 objektů Obr. 4- (SVD) Dvojný graf (5 ti) proměnných a 9 objektů
4.. Porovnání metod SVD a IPALS Principal Components Biplot second component - - - first component 8 Obr. 4- (SVD) Dvojný graf (5 ti) proměnných a 9 objektů IPALS Biplot second component - - - -8 - first component Obr. 4-4 (IPALS) Dvojný graf (5 ti) proměnných a 9 objektů
4.. Tabulka hodnot hlavních komponent (SVD) V tabulce jsou vhledem ke snížení dimenzionality uvedeny vždy první dvě hlavní komponenty, které lze proti sobě lehce graficky zobrazit. (viz Obr. 4-9 až 4-). Pro komponent Pro 8 komponent Pro 6 komponent Pro 5 komponent PCA PCA PCA PCA PCA PCA PCA PCA Proporčně.45.47.44.7.54.75.56.95 Kumulativně.45.49.44.55.54.689.56.7 -.4.54 -.78 -.75 -.44.8.456.4 vod. sol -.6 -.488 - - - - - - -.7 -.47 -..56 -.4 -.85.46 -.4 ph.54 -.89..46 - - - - zbytek A.5 -.5 - - - - - - spot. Ol. -.7 -.75 -.44.9 -.45 -.5 - - disperg -.4 -.4 -.8.94 - - - -. -.45.45.6.5 -.8 -.7 -.88 L*.65 -.76 - - - - - - -.44.66 -.5 -.48 -.5..57 -.9.4 -.7.476.8.49 -.78 -.55.6 4. Závěr Pro PCA (metodu hlavních komponent) byly použita metoda SVD, která počítá všechny komponenty dohromady, zatím co IPALS počítá v daném čase vždy jednu komponentu. Vzhledem k této skutečnosti by bylo pro tohle hodnocení pravděpodobně vhodnější použít metodu IPALS, ale metoda SVD poskytuje zcela shodné výsledky jako metoda IPALS, ale s rozdílnými znaménky u jednotlivých hodnot příslušných komponent. Z porovnání, které je uvedeno v tabulce hodnot (4..) vyplívá, že se postupnou redukcí proměnný podařilo pomocí dvou latentních proměnných dosáhnout 7, % vysvětlené variability v datech. Latentní proměnné pak mají tvar: y =.456* +.46* -.7*obsah částic pod m +.57*.55*sytost* y =.4*.4*.88* obsah částic pod m -.9* +.6*sytost Z dvojných grafů (Obr. 4-9 až 4-4) je možné objekty rozdělit na dvě od sebe velmi dobře odlišné skupiny. ejvětší skupinu objektů je možno rozdělit ještě na tři skupiny.pokud bychom se snažily o fyzikální vysvětlení latentních proměnných, tak y vzhledem k velikosti koeficientů u a souvisí s barevnými vlastnostmi a y pak s tvarem a velikostí částic pigmentu.
5 FA Faktorová analýza Vzhledem k tomu, že mohu latentním proměnným y a y, které jsem získal metodou PCA přiřadit fyzikální smysl, nejedná se už o latentní proměnné, ale o faktory. Při faktorové analýze byla použita metoda EQUIMAX, která spojuje kritéria metod VARIMAX a QUARTIMAX, což znamená, že při rotaci je maximalizován rozptyl čtverců faktorových vah a zároveň je maximalizován součet čtvrtých mocnin faktorových zátěží. Výpočet byl proveden pro tři faktory. 5. Tabulka Komunalit pro zvolený počet faktorů Počet faktorů.546.565.595.4.496.996 částice..874.986.858.87.897.799.8.867 Vysvětlený rozptyl (%) - 5.6 7. 86.8 Factor Analysis Score Plot Unrotated Factors Rotated Factors second factor - second factor - - - - first factor 4 5 - first factor 4 5 Obr. 5- Rozptylový diagram komponentního skóre před a po rotaci 4
5. Závěr Z tohoto souboru dat se nepodařilo separovat faktorově čisté proměnné. Pro popis hodnocených dat je možno použít dvou (7,% vysvětlené variability) nebo tří (86,8 vysvětlené variability) faktorů. Po rotaci EQUIMAX byly získány pro dva faktory následující komponentní váhy: 5.. Tabulka komponentních vah pro dva faktory Faktor Faktor.8.4. -.46 částice -.8 -.89 Decmc.5 -. -.4.6 5.. Tabulka komponentních vah pro tři faktory Faktor Faktor Faktor.55 -..8 -.64.46. částice.45 -.7 -.4.9 -.96 -.467.. 6 Analýza shluků Analýza shluků patří do metod, které se zabývají podobností objektů, respektive proměnných. Postupy jsou založeny na postupném spojování objektů nebo proměnných do tzv. dendorogramů. Pro měření vzdálenosti mezi objekty byly použita euklidovská metrika, která je přirozeným zobecněním běžného pojmu vzdálenosti. Jako shlukovací procedury (metody) byly použity: metoda průměrová (Average), mediánová (), těžiště (Centroid), nejbližšího souseda (Single), nejvzdálenějšího souseda (Complete), Wardova metoda (Ward). 5
Similarity Similarity 55.96 68. 7.64 78.68 85. 89.4. Observations. Observations Obr. 6- Dendrogram pro 9 objektů, metoda - Average Obr. 6- Dendrogram pro 9 objektů, metoda - Centroid Similarity. Similarity 87.47. 9.65 66.67 95.8. Observations. Observations Obr. 6- Dendrogram pro 9 objektů, metoda -Complete Obr. 6-4 Dendrogram pro 9 objektů, metoda - Single 6
Similarity Similarity -77.4 45.75-88.9 6.84-59.5 8.9. Observations. Observations Obr. 6-5 Dendrogram pro 9 objektů, metoda Ward Obr. 6-6 Dendrogram pro 9 objektů, metoda - Similarity Dendrogram proměnných Similarity Dendrogram proměnných 4. -5.5 6.8 -.4 8.4 49.8. zbyte k A ph L* d isperg. vo d. so l vlh kost s pot. o l DEcm c. ph disperg. zbytek A L* vod. sol s pot. ol Variables Obr. 6-7 Dendrogram proměnných, metoda Centroid Variables Obr. 6-8 Dendrogram proměnných, metoda - Ward 7
6. Tabulka rozhodčích kritérií Metoda Ward Singl Complet CC,749,7845,77 Delta(.5),998,8,488 Delta(.),94,97,46 Metoda Centroid Average CC,849,7699,84 Delta(.5),949,544,6 Delta(.),87,6,96 6. Závěr Z dendrogramů objektů (obr. 6- až 6-6) je patrné, že soubor hodnocených dat, lze rozdělit na celkem tři skupiny výrobků, které jsou od sebe dobře rozlišitelné. Lze z toho usuzovat, že pigment, který byl vyroben na termické lince v.pololetí je možno rozdělit do tří skupin, ve kterých je vyprodukovaný pigment podobných vlastností. Z hodnot kofenetických korelačních koeficientů CC, a delty vyplívá, že nejlepší shlukovací metodou je metoda průměrová (Average) a těžiště (Centroid). Vhledem k zobrazení dendrogramů proměnných (obr. 6-7, 6-8) lze ze souboru prováděných analýz vynechat měrnou nebo obsah vodosolí, které jsou spolu ve vzájemné silné korelaci a tudíž oba tyto parametry nesou stejnou informaci o výrobku. Mezi velmi podobné proměnné lze také zařadit hodnotu a (sytosti), ale u těchto parametrů se podobnost dala očekávat, protože tyto parametry vyjadřují polohu barvy v barevnám prostoru. 8