3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková alkalita, chloridy, vápník, zinek, fosforečnany a železo. Zjistěte jestli půjde rozlišit odběrová místa. Data : Tabulka č. ph vodivost cel.alk. Cl Ca Zn PO Fe μs mmol/l mg/l mg/l mg/l mg/l mg/l odběrové místo 8,72 097 6,20 7 68,8 0,65 0,92 0,02 odběrové místo 8,77 97 5,30 57 37,9 0,5,25 0,62 odběrové místo 8,68 97 5,65 67 50,7 0,67,26 0,92 odběrové místo 8,66 007 5,0 70 3, 0,696,53 0,25 odběrové místo 8,78 036 5,70 82 55,,008,72 0,288 odběrové místo 8,80 998 5,60 73 50,2 0,35,72 0,87 odběrové místo 8,75 995 5,65 75 5, 0,838,5 0,2 odběrové místo 8,73 893 5,5 5 38,8 0,729,69 0,088 odběrové místo 8,76 02 5,80 82 9,9,09,77 0,9 odběrové místo 8,83 090 5,95 89 56,0,096,79 0,60 odběrové místo 8,80 978 5,80 87 5,6 0,363,0 0,5 odběrové místo 2 8,6 089 5,5 6 59,6 0,062,23 0,020 odběrové místo 2 8,72 09 5,60 63 70,6 0,083 0,96 0,0 odběrové místo 2 8,7 35 5,75 68 79,6 0,067 0,9 0,02 odběrové místo 2 8,76 0 5,85 6 7,5 0,027 0,67 0,029 odběrové místo 2 8,7 0 5,65 63 70,3 0,028 0,86 0,03 odběrové místo 2 8,6 039 5,5 9 6,3 0,09 0,99 0,09 odběrové místo 2 8,75 68 5,5 68 83, 0,080 0,86 0,0 odběrové místo 3 8,83 89 5,85 97 68,3 0,060 0,6 0,08 odběrové místo 3 8,8 77 5,85 96 67,7 0,076 0,68 0,030 odběrové místo 3 8,92 207 5,75 0 69,0 0,073 0,5 0,05 odběrové místo 3 8,90 227 5,70 09 72,9 0,060 0,8 0,023 odběrové místo 3 8,99 23 5,85 97 66,8 0,06 0,8 0,020 odběrové místo 3 8,88 80 5,80 82 63,0 0,068 0,52 0,0 odběrové místo 3 8,86 53 5,65 90 6, 0,083 0,6 0,050 odběrové místo 8,79 22 5,90 87 57,8 0,36,9 0,09 odběrové místo 8,66 97 6,0 0 6,2 0,372,5 0,65 odběrové místo 8,65 7 5,65 96 9,9 0,656,75 0,39 odběrové místo 8,76 9 5,90 9 6,8 0,732,8 0,32 odběrové místo 8,75 08 5,65 75 6,5 0,300,27 0,065 odběrové místo 8,73 027 5,60 80 3,3 0,25,3 0,066 odběrové místo 8,70 00 5,70 75 6,8 0,6,33 0,030 odběrové místo 8,76 099 6,0 82 60,0 0,70, 0,03 odběrové místo 8,8 0 6,00 89 56,2 0,37,25 0,036 odběrové místo 8,7 059 5,70 82 5,8 0,39, 0,065 odběrové místo 8,85 023 5,85 68 7,3 0,209, 0,030
Program: Statistica Předzpracování dat Data se standardizují, což znamená, že se od základních údajů odečte aritmetický průměr a podělí se směrodatnou odchylkou. Tabulka č.2 Průměry a směrodatné odchylky pro dané parametry ph vodivost cel.alk. Cl Ca Zn PO Fe μs mmol/l mg/l mg/l mg/l mg/l mg/l průměr 8,7675 08, 5,7222 79,25 58,38 0,302,33 0,086 smodch 0,0805 83,75 0,28,55,50 0,378 0,0 0,0700 Tabulka č.3 - Standardizované výsledky ph vodivost cel.alk. Cl Ca Zn PO Fe μs mmol/l mg/l mg/l mg/l mg/l mg/l odběrové místo -0,62 0,55 2,978-0,3608 0,906 0,3928-0,5522 0,2270 odběrové místo 0,0000-2,008 -,923 -,5292 -,7809 0,570 0,2638,0835 odběrové místo -,80 -,390-0,3205-0,89-0,6678 0,87 0,2885,58 odběrové místo -,3665-0,9236 -,652-0,6357 -,3026,97 0,956,80 odběrové místo 0,22-0,5762-0,096 0,890-0,2852 2,06,260 2,8822 odběrové místo 0,3727 -,03-0,595-0,296-0,73-0,657,260,0 odběrové místo -0,28 -,067-0,3205-0,292 -,287,5666 0,9809 0,7980 odběrové místo -0,969-2,2893 -,2363 -,735 -,7026,2236,358 0,027 odběrové místo -0,22-0,503 0,3663 0,890-0,737 2,2306,596 0,8979 odběrové místo 0,753 0,0707,053 0,670-0,2070 2,3786,599,0550 odběrové místo 0,3727 -,270 0,3663 0,5326 -,3 0,078-0,2555 0,808 odběrové místo 2 -,9876 0,0587-2,6099 -,08 0,06-0,8755 0,23-0,936 odběrové místo 2-0,62 0,86-0,595 -,68,0626-0,809-0,533-0,600 odběrové místo 2-0,3727 0,6098 0,37-0,7732,852-0,8597-0,5770-0,9293 odběrové místo 2-0,22 0,303 0,5952 -,08,07-0,9856 -,70-0,85 odběrové místo 2-0,3727 0,238-0,3205 -,68,0365-0,9825-0,7006 -,035 odběrové místo 2 -,69-0,503 -,2363-2,0790 0,58-0,96-0,379-0,9579 odběrové místo 2-0,28,005 -,2363-0,7732 2,96-0,888-0,7006 0,227 odběrové místo 3 0,753,2567 0,5952,299 0,8626-0,888 -,335-0,9722 odběrové místo 3 0,969,29 0,5952,52 0,80-0,83 -,57-0,8009 odběrové místo 3,863,723 0,37,98 0,9235-0,809 -,566 -,050 odběrové místo 3,69,79-0,096 2,07,2626-0,888 -,603-0,9008 odběrové místo 3 2,7329,52 0,5952,299 0,7322-0,8692 -,603-0,936 odběrové místo 3,3665,88 0,3663 0,890 0,07-0,8566 -,53 -,072 odběrové místo 3,80 0,825-0,3205 0,7388 0,2626-0,809 -,388-0,553 odběrové místo 0,28 0,50 0,822 0,5326-0,050 0,083 0,5 0,28 odběrové místo -,3665,3525,7399,700 0,506 0,00 0,9067,263 odběrové místo -,907 0,7535-0,3205,52-0,737 0,9939,5002 0,7552 odběrové místo -0,22 0,8 0,822,037 0,5583,2330 0,8325 0,6552 odběrové místo -0,28-0,799-0,3205-0,292 -,0330-0,265 0,332-0,302 odběrové místo -0,969-0,680-0,595 0,055 -,33-0,2996-0,0330-0,2869 odběrové místo -0,8696-0,9955-0,096-0,292 -,0070-0,5639 0,66-0,8009 odběrové místo -0,22 0,785,7399 0,890 0,09-0,5356-0,0082-0,738 odběrové místo 0,969 0,238,282 0,670-0,896-0,0730 0,2638-0,752 odběrové místo -0,3727-0,3007-0,096 0,890-0,5722 0,0277 0,659-0,302 odběrové místo 0,9938-0,7320 0,5952-0,7732-0,9635-0,29-0,082-0,8009 2
Charakter vícerozměrných dat Graf č. Vybrané diagnostiky průzkumové analýzy dat Voda v pořadí (shora) histogram, QQ, diagramy rozptýlení a odhad hustoty pro znaky ph, vodivost, celková alkalita a chloridy (QCExpert) Klasické parametry : Název sloupce : ph vodivost Celk.alkalita Cl Průměr : -0,0305556 0,00036 0,006389-5,56E-06 Spodní mez : -0,3739-0,33006-0,3329959-0,333959 Horní mez : 0,3223379 0,3328628 0,35332368 0,33288 Rozptyl :,029076,02856722,0286289,0287052 Směr. odchylka :,05938,08303,026,03536 Šikmost 0,7639-0,23533385-0,2297697 0,05867 Odchylka od 0 : Nevýznamná Nevýznamná Nevýznamná Nevýznamná Špičatost : 3,3366222 2,3996572 3,32077587 2,2578027 Odchylka od 3 : Nevýznamná Nevýznamná Nevýznamná Nevýznamná Polosuma 0,37265-0,2887-0,20605-0,075 Modus : -0,300922 0,3963033-0,282628 0,377605 Homogenita : Přijata Přijata Přijata Přijata Normalita : Přijata Přijata Přijata Přijata 3
Graf č. 2 Vybrané diagnostiky průzkumové analýzy dat Voda v pořadí (shora) histogram, QQ, diagramy rozptýlení a odhad hustoty pro znaky Ca, Zn, PO a Fe ( QCExpert) Tabulka č. Klasické parametry : Název sloupce : Ca Zn PO Fe Průměr : -0,00036 5,56E-06,67E-05 0,0005556 Spodní mez : -0,337882-0,3395-0,33366-0,329939 Horní mez : 0,32866 0,336026 0,336979 0,3330505 Rozptyl :,029369,028592,0285895,0285638 Směr. odchylka :,05776,096,0977,080 Šikmost 0,2220892 0,9597098-0,0639805 0,86996233 Odchylka od 0 : Nevýznamná Významná Nevýznamná Významná Špičatost : 2,78989 2,73029,975338 2,973325 Odchylka od 3 : Nevýznamná Nevýznamná Nevýznamná Nevýznamná Polosuma 0,835 0,6965-0,0206 0,90505 Modus : 0,083626 -,03027 0,597387-0,873323 Homogenita : Přijata Přijata Přijata Přijata Normalita : Přijata Přijata Přijata Přijata
Analýza hlavních komponent - PCA Metoda snižuje počet původních proměnných tím, že vytvoří lineární kombinaci zdrojových proměnných, které vysvětlují největší část jejich variability. První hlavní komponenta je taková kombinace vstupujících proměnných, která má největší rozptyl mezi všemi lineárními kombinacemi. Podobně následuje druhá hlavní komponenta. Pro dostatečné vysvětlení chování zdrojových proměnných požadujeme 85 90 % vysvětlené variability. Vstupní data byla při výpočtu standardizována ( nemají stejný rozměr).. Vyšetření indexového grafu úpatí vlastních čísel z hrany úpatí v tomto diagramu se určí vhodný počet hlavních komponent Graf.č 3 Cattelův indexový graf úpatí vlastních čísel,5 Vlastní čísla korelační matice Pouze aktiv. proměnné,0 9,06% Vlast. číslo 3,5 3,0 2,5 2,0,5 23,58%,0 0,5 0,0 0,5% 6,96% 5,23% 2,68%,56%,7% -0,5-0 2 3 5 6 7 8 9 0 Pořadí v l. čísla Je patrné že zlom není moc zřetelný. První hlavní komponenta popisuje 9,06% celkového rozptylu, druhá hlavní komponenta popisuje 23,58% celkového rozptylu a třetí hlavní komponenta 0,5%. První a druhá komponenta popisují celkem 72,6. První tři popisují celkem 83,09. Pro dostatečné vysvětlení chování zdrojových proměnných požadujeme 85 90 % vysvětlené variability. Plot Component Weights Graf komponentních vah Zobrazuje komponentní váhy vstupujících proměnných pro 2 hl. komponenty Největším přínosem pro danou komponentu mají proměnné, které se na grafu nachází co nejblíže u souřadnice dané komponenty a na číselné ose co nejdále od nuly Graf č. Graf komponentních vah ph() a vodivost (2) Tady vodivost, vápník a ph,chloridy a celková alkalita. Záporné hodnoty fosforečnany, železo a zinek. 5
Projekce proměnných do f aktorov é rov iny ( x 2),0 0,5 Faktor 2 : 23,58% 0,0-0,5 PO Fe Zn celk.alkal. Cl ph Ca v odiv ost -,0 -,0-0,5 0,0 0,5,0 Faktor : 9,06% Aktiv. Graf č.5 Graf komponentních vah vodivost a ph Projekce proměnných do f aktorov é rov iny ( 2 x ),0 v odiv ost Ca 0,5 Cl celk.alkal. ph Faktor : 9,06% 0,0-0,5 ZnFe PO -,0 -,0-0,5 0,0 0,5,0 Faktor 2 : 23,58% Aktiv. 6
5 3 Projekce případů do f aktorov é rov iny ( x 2) Případy se součtem cos()^2 >= 0,00 2 2 Faktor 2: 23,58% 2 0 - -2-3 2 2 2 2 3 3 3 3 3 33 - -5-7 -6-5 - -3-2 - 0 2 3 5 6 Faktor : 9,06% Aktiv. Závěr : PCA se jeví užitečnou pomůckou pro rozlišení odběrových míst. Odběrové místa 2 a 3 jsou dobře rozlišeny. U odběrových míst a bude problém protože se částečně překrývají. V případě předpokladu normálního rozdělení vstupních dat by měly být body rozmístěny v jakémsi pomyslném kruhu mušinec.rozmístění neodpovídá normálnímu rozdělení, protože data nejsou ze stejných zdrojů vody. Tabulka č 5. Korelace faktorů a proměnných (fakt.zátěže) podle korelací ph vodivost celk.alkal. Cl Ca Zn PO Fe ph 0,5866-0,3638 0,662-0,5 0,2673 0,08 0,203-0,0068 vodivost 0,8633-0,269-0,303-0,2259-0,02 0,092 0,050-0,38 celk.alkal. 0,390-0,6798-0,273 0,590 0,0968-0,0900-0,0005-0,097 Cl 0,756-0,7683 0,0532-0,2006-0,356-0,0620-0,035 0,099 Ca 0,785 0,0835-0,5005-0,27 0,308 0,0660 0,058 0,0952 Zn -0,730-0,5655-0,059-0,0597 0,680 0,2682-0,872 0,0033 PO -0,8738-0,298-0,832 0,096-0,35 0,527 0,266 0,0075 Fe -0,735-0,622-0,2-0,299 0,2382-0,2965 0,0250-0,0295 Dobrá korelace ph a vodivost 0,8633; ph a vápník 0,785. Korelace ph zinek, fosforečnany a železo je záporná. Korelace je u celkové alkality a chloridů. Jinak korelace nízká a záporná. Tabulka č 6 - Korelace Korelace ph vodivost celk.alkal. Cl Ca Zn PO Fe ph,0000 0,62 0,367 0,507 0,26-0,2073-0,5202-0,2758 vodivost 0,62,0000 0,3 0,669 0,79-0,8-0,5986-0,55 celk.alkal. 0,367 0,3,0000 0,5538 0,2720 0,0588-0,6-0,078 Cl 0,507 0,669 0,5538,0000 0,970 0,0250-0,762-0,09 Ca 0,26 0,79 0,2720 0,970,0000-0,53-0,607-0,562 Zn -0,2073-0,8 0,0588 0,0250-0,53,0000 0,7852 0,7787 PO -0,5202-0,5986-0,6-0,762-0,607 0,7852,0000 0,773 Fe -0,2758-0,55-0,078-0,09-0,562 0,7787 0,773,0000 7
Korelace ph-chloridy (0,5), ph vodivost (0,2); vodivost-chloridy (0,66), vodivost vápnik (0,79); celková alkalita- vodivost (0,), celková alkalita chloridy (0,55); zinekfosforečnany (0,79) a zinek- železo (0,78). Tabulka č.7 - Kovariance ph vodivost celk.alkal. Cl Ca Zn PO Fe ph,029 0,283 0,3567 0,5255 0,2209-0,233-0,5353-0,2838 vodivost 0,283,0286 0,29 0,6839 0,875-0,62-0,657-0,583 celk.alkal. 0,3567 0,29,0286 0,5696 0,2798 0,0605-0,9-0,0803 Cl 0,5255 0,6839 0,5696,0285 0,2027 0,0257-0,83-0,022 Ca 0,2209 0,875 0,2798 0,2027,029-0,568-0,6592-0,69 Zn -0,233-0,62 0,0605 0,0257-0,568,0286 0,8076 0,800 PO -0,5353-0,657-0,9-0,83-0,6592 0,8076,0286 0,7378 Fe -0,2838-0,583-0,0803-0,022-0,69 0,800 0,7378,0286 Kovariace - ph-chloridy (0,53), ph vodivost (0,3); vodivost-chloridy (0,68), vodivost vápnik (0,82); celková alkalita- vodivost (0,3), celková alkalita chloridy (0,57); zinekfosforečnany (0,8) a zinek- železo (0,80). Shluková analýza Cluster analysis Metoda která na základě podobnosti objektů umožňuje rozklad objektů do několika sourodých tříd (shluků). Posuzování podobnosti se provádí podle různých kritérií. Možnosti Statistiky Graf. č.7 - Horizontální graf hierarchického stromu Jednoduché spojení Euklidovské vzdál. Str. diagram pro 8 Proměnné Jednoduché spojení Euklid. v zdálenosti ph v odiv ost Ca Cl celk.alkal. Zn PO Fe 3 5 6 7 8 9 Vzdálen. spojení Objekty se seskupili do jediného shluku. Seskupení objektů do shluků znázorníme do dendrogramu. Nejdřív se vytvořilo spojení vodivost a vápník, přidal se chlór a celková alkalita.a potom ph to je jedna část. Zinek a fosforečnany a pak železo vytvořili druhou část. Velice podobné si jsou vodivost - vápník a zinek a fosforečnany. Tabulka č. 8 Matice vzdáleností 8
ph vodivost celk.alkal. Cl Ca Zn PO Fe ph 0,0 6,5 6,86 5,9 7,5 9,3 0,5 9,6 vodivost 6,5 0,0 6,50,9 3,8 0,2 0,7 0,2 celk.alkal. 6,9 6,5 0,00 5,67 7,2 8,2 9,0 8,8 Cl 5,9,9 5,67 0,00 7,6 8, 9,2 8,5 Ca 7,5 3,8 7,2 7,60 0,0 0,5 0,9 0,2 Zn 9,3 0,2 8,23 8,38 0,5 0,0 3,9,0 PO 0,5 0,7 8,96 9,20 0,9 3,9 0,0,5 Zn 9,6 0,2 8,8 8,5 0,2,0,5 0,0 Nejkratší vzdálenosti vodivost vápník 3,8 a zinek-fosforečnany 3,9. Graf č.8 Vertikální třásňový graf 9 Str. diagram pro 8 Proměnné Jednoduché spojení Euklid. v zdálenosti 8 Vzdálen. spojení 7 6 5 3 Fe PO Zn celk.alkal. Cl Ca v odiv ost ph Graf č. 9 Graf vzdáleností podél kroků Graf v zdáleností spojení podél kroků Euklid. v zdálenosti 9 8 Vzdálenost spojení 7 6 5 3 0 2 3 5 6 7 8 Krok Spojení Vzdálen. Grafické metody zkoumání podobnosti objektů - slouží k vizuálnímu srovnání různých objektů 9
Graf č. 0 - Chernffonovy tváře pro každou chladící vodu. Voda Ikonov ý graf (Voda 8v *36c) - -2-3 - -5-6 -7-8 -9-0 - 2-2-2 2-3 2-2-5 2-6 2-7 3-3-2 3-3 3-3-5 3-6 3-7 - -2-3 - -5-6 -7-8 -9-0 - tv ář/šíř = ph ucho/úrov = v odiv ost polov ina tv áře/v ýš = celk.alkal. horní tv ář/exc = Cl dolní tv ář/exc = Ca nos/dél = Zn ústa/stř = PO ústa/zakř = Fe Graf č. - Sun Ray Plot graf slunečních paprsků Počet paprsků odpovídá počtu proměnných. Střed každého paprsku představuje průměr odpovídající proměnná a jeho délka 2. n násobek směrodatné odchylky této proměnné, kde n je námi zadané číslo Legendu k grafu s popisem jednotlivých paprsků poskytuje Plot Key klíč Voda Ikonov ý graf (Voda 8v *36c) - -2-3 - -5-6 -7-8 -9-0 - 2-2-2 2-3 2-2-5 2-6 2-7 3-3-2 3-3 3-3-5 3-6 3-7 - -2-3 - -5-6 -7-8 -9-0 - Prav otočiv ě: ph v odiv ost celk.alkal. Cl Ca Zn PO Fe Počet paprsků odpovídá počtu proměnných. Střed každého paprsku představuje průměr odpovídající proměnná a jeho délka 2. n násobek směrodatné odchylky této proměnné, kde n je námi zadané číslo Legendu k grafu s popisem jednotlivých paprsků poskytuje Plot Key klíč Graf č.2 - Star Symbol Plot hvězdicový graf 0
Délka paprsku zde představuje relativní velikost hodnoty příslušného objektu. Konce paprsků jsou spojeny čárami. V případě velkého množství objektů je graf nepřehledný. Klíč popisuje řazení jednotlivých paprsků. Voda Ikonov ý graf (Voda 8v *36c) - -2-3 - -5-6 -7-8 -9-0 - 2-2-2 2-3 2-2-5 2-6 2-7 3-3-2 3-3 3-3-5 3-6 3-7 - -2-3 - -5-6 -7-8 -9-0 - Prav otočiv ě: ph v odiv ost celk.alkal. Cl Ca Zn PO Fe Graf č. 3 - Ikonový graf - výseče Voda Ikonov ý graf (Voda 8v *36c) - -2-3 - -5-6 -7-8 -9-0 - 2-2-2 2-3 2-2-5 2-6 2-7 3-3-2 3-3 3-3-5 3-6 3-7 - -2-3 - -5-6 -7-8 -9-0 - Prav otočiv ě: ph v odiv ost celk.alkal. Cl Ca Zn PO Fe Vidíme že vzorek ze čtvrtého odběrového místa č.6 je úplně atypický a 5 a 7.Vzorky z prvního odběrového místa 2,3,,5,7,8 a 9 jsou si podobné složením Zinek a fosforečnany. U druhého odběrového místa je atypický vzorek č. 6. Vzorky z první skupiny jsou si podobné kromě č.,6,0 a. V druhé skupině jsou odlišné, a 6.
Závěr : Z vyšetření indexového grafu úpatí vlastních čísel Catelův indexový graf jsme určili vhodný počet hlavních komponent. V našem případě tři. První hlavní komponenta nám popisuje 9,06% celkového rozptylu, druhá hl.komponenta popíše 23,58% a třetí 0,5%. První tři popíšou 83,09%. Pro dostatečné vysvětlení chování zdrojových proměnných požadujeme 85-90 % vysvětlené variability. V našem případě je patrné že zlom není moc zřejmý. Čtvrtá komponenta popíše 6,96%, pátá komponenta 5,23, šestá komponenta 2,68%, sedmá komponenta,56% a osmá 0,7%. Celkem 99,99 %. Z grafu komponentních vah jsme určili - souvislost - vodivost, chloridy a vápník,ph a alkalita. Druhá hlavní komponenta popisuje vztah vápník vodivost ph a první hlavní popisuje vztah celková alkalita a chloridy. Fosforečnany,zinek a železo mají záporné hodnoty a sestupnou tendenci korelačního vztahu. Metoda hlavních komponent je užitečná pomůcka pro rozlišení odběrových míst. Odběrová místa 2 a 3 jsou dobře rozlišeny. U odběrových míst a to už není tak jednoznačné protože se částečně překrývají. Pro rozklad objektů do shluků jsem použila shlukovou analýzu.objekty vytvořili nakonec shluk. Velice podobné jsou shluky vodivost vápník a zinek fosforečnany. Pro vizuální zkoumání podobnosti objektů jsem použila ikonové grafy. Jako nejpřehlednější mi připadali výseče. Hodně pomohlo barevné rozlišení jednotlivých parametrů, vytvoření podobných skupin a odlišné objekty byly vidět už na první pohled. 2