Shluková analýza příklad K dispozici jsou údaje o složení vybraných přírodních a minerálních vod. Pracujeme s následujícím seznamem proměnných: Dané hodnoty vznikly tak, že byl zjištěn u všech vod celkový obsah dané látky a vypočítán aritmetický průměr. Tím pak byla dělena každá hodnota příslušné proměnné.
Procedura v SGP: Describe Multivariate Methods Cluster Analysis... Použitá metoda: Metoda nejvzdálenějšího souseda (Kritériem pro spojování shluků je maximum z celkového počtu možných mezishlukových vzdáleností objektů.) Míra vzdálenosti: čtverec euklidovské vzdálenosti Cluster Analysis Data variables: Na (kationty sodne) K (kationty draselne) Mg (kationty horecnate) Ca (kationty vapenate) Cl (anionty chloridove) SO4 (anionty siranove) HCO3 (anionty hydrogenuhlicitanove) Number of complete cases: 13 Clustering: observations Standardized: yes Cluster Summary Cluster Members Percent 1 13 100,00 Centroids Cluster Na K Mg Ca Cl SO4 HCO3 1 1,0 1,00077 1,00077 1,00077 1,0 0,999231 1,0 Centroids průměrná hodnota pro každou proměnnou v každém shluku.
Agglomeration Schedule Combined Combined Previous Stage Previous Stage Next Stage Cluster 1 Cluster 2 Distance Cluster 1 Cluster 2 Stage 1 3 10 0,141088 0 0 4 2 2 11 0,289719 0 0 5 3 5 6 0,483247 0 0 9 4 1 3 0,693114 0 1 6 5 2 12 1,25072 2 0 8 6 1 7 1,86357 4 0 8 7 8 9 2,70437 0 0 11 8 1 2 3,33252 6 5 10 9 5 13 3,90763 3 0 10 10 1 5 10,0024 8 9 12 11 4 8 17,2127 0 7 12 12 1 4 48,2397 10 11 0 Tato tabulka ukazuje, která pozorování byla spojena v každém stupni seskupovacího procesu. Např. v prvním stupni bylo spojeno 3. pozorování s 10., tj. byly seskupeny vody Evian a Rajec. Vzdálenost mezi skupinami byla 0,141088. Poslední sloupec tabulky ukazuje, že další stupeň, ve kterém tato sloučená skupina byla dále sloučena s dalším objektem, je 4. stupeň. 50 Dendrogram Furthest Neighbor Method,Squared Euclidean 40 30 20 10 0 Bonaqua Evian Rajec Ondrasovka Distance Dobra voda Toma Natura Valvert Korunni Mattoni Vittel acka kyselka Podebradka odebradka PL Výstupy z předcházející tabulky jsou graficky znázorněny na výše uvedeném dendrogramu. Ukazuje se zde sloučení všech pozorování až do podoby jednoho shluku. Z výše uvedené tabulky a grafu plyne, že nejprve byly spojeny vody Evian a Rajec, potom Dobrá voda a Toma Natura, ve 3. stupni Korunní a Mattoni, ve 4. stupni byla do shluku, ve kterém je Evian přidána Bonaqua atd.
Podle uvedených hodnot by se mohlo zdát, že by bylo vhodné vytvořit 2 shluky. Agglomeration Schedule Combined Combined Previous Stage Previous Stage Next Stage Cluster 1 Cluster 2 Distance Cluster 1 Cluster 2 Stage 1 3 10 0,141088 0 0 4 2 2 11 0,289719 0 0 5 3 5 6 0,483247 0 0 9 4 1 3 0,693114 0 1 6 5 2 12 1,25072 2 0 8 6 1 7 1,86357 4 0 8 7 8 9 2,70437 0 0 11 8 1 2 3,33252 6 5 10 9 5 13 3,90763 3 0 10 10 1 5 10,0024 8 9 0 11 4 8 17,2127 0 7 0 18 Dendrogram Furthest Neighbor Method,Squared Euclidean 15 12 9 6 3 0 Bonaqua Evian Rajec Ondrasovka Distance Dobra voda Toma Natura Valvert Korunni Mattoni Vittel acka kyselka Podebradka odebradka PL Membership Table Row Label Cluster 1 Bonaqua 1 2 Dobra voda 1 3 Evian 1 4 Hanacka kyselka 2 5 Korunni 1 6 Mattoni 1 7 Ondrasovka 1 8 Podebradka 2 9 Podebradka PL 2 10 Rajec 1 11 Toma Natura 1 12 Valvert 1 13 Vittel 1
Je zřejmé, že první shluk je tvořen vodami Bonaqua, Evian, Rajec, Ondrášovka, Dobrá voda, Toma Natura, Valvert, Korunní, Mattoni a Vittel. Druhý shluk obsahuje vody Hanácká kyselka, Poděbradka a Poděbradka ProLinie. Podíváme-li se na původní hodnoty všech proměnných u jednotlivých vod, vidíme, že vody ve druhém shluku se oproti ostatním výrazně odlišují v hodnotách všech ukazatelů jejich složení. Jiná možnost řešení: Pokud projdeme různé možnosti řešení a podrobně prostudujeme složení vod, dojdeme k závěru, že ideální počet shluků je 5. Cluster Analysis Data variables: Na (kationty sodne) K (kationty draselne) Mg (kationty horecnate) Ca (kationty vapenate) Cl (anionty chloridove) SO4 (anionty siranove) HCO3 (anionty hydrogenuhlicitanove) Number of complete cases: 13 Clustering: observations Standardized: yes Cluster Summary Cluster Members Percent 1 7 53,85 2 1 7,69 3 2 15,38 4 2 15,38 5 1 7,69 Centroids Cluster Na K Mg Ca Cl SO4 HCO3 1 0,0685714 0,152857 0,601429 0,511429 0,0428571 0,328571 0,507143 2 2,68 1,14 2,39 3,02 2,26 0,01 2,84 3 0,88 1,475 0,93 0,975 0,135 1,505 1,04 4 4,005 3,755 1,94 1,72 5,06 2,34 2,04 5 0,07 0,34 0,67 1,02 0,05 2,99 0,45 = Podmíněné průměry pro jednotlivé proměnné. Agglomeration Schedule Combined Combined Previous Stage Previous Stage Next Stage Cluster 1 Cluster 2 Distance Cluster 1 Cluster 2 Stage 1 3 10 0,141088 0 0 4 2 2 11 0,289719 0 0 5 3 5 6 0,483247 0 0 0 4 1 3 0,693114 0 1 6 5 2 12 1,25072 2 0 8 6 1 7 1,86357 4 0 8 7 8 9 2,70437 0 0 0 8 1 2 3,33252 6 5 0
Dendrogram Furthest Neighbor Method,Squared Euclidean 4 3 2 1 0 Bonaqua Evian Rajec Ondrasovka Dobra voda Toma Natura Valvert acka kyselka Korunni Distance Mattoni Podebradka odebradka PL Vittel Membership Table Row Label Cluster 1 Bonaqua 1 2 Dobra voda 1 3 Evian 1 4 Hanacka kyselka 2 5 Korunni 3 6 Mattoni 3 7 Ondrasovka 1 8 Podebradka 4 9 Podebradka PL 4 10 Rajec 1 11 Toma Natura 1 12 Valvert 1 13 Vittel 5 1. shluk: Bonaqua, Dobrá voda, Evian, Ondrášovka, Rajec, Toma Natura, Valvert. 2. shluk: Hanácká kyselka. 3. shluk: Korunní a Mattoni. 4. shluk: Poděbradka a Poděbradka ProLinie. 5. shluk: Vittel. Při pohledu na tabulku s podmíněnými průměry pro jednotlivé proměnné (Centroids), kterými jsou jednotlivé shluky charakterizovány, vidíme, že u prvního shluku jsou typické podprůměrné hodnoty všech zjišťovaných proměnných, u látek Na a Cl jsou hodnoty dokonce velmi nízké. Doplňme, že průměr získaný na základě všech objektů je roven 1. U druhého shluku je hodnota SO 4 2- hodně nízká, hodnota K je blízká průměru a ostatní hodnoty jsou výrazně nadprůměrné.
Třetí shluk vykazuje nízkou hodnotu Cl, mírně nadprůměrné hodnoty u látek K a SO 4 2-, hodnoty zbývajících 4 látek se pohybují kolem průměrné hodnoty. Pro čtvrtý shluk je charakteristické, že hodnoty všech sledovaných látek jsou výrazně nadprůměrné. Pátý shluk se vyznačuje nízkými hodnotami u proměnných Na a Cl a výrazně nadprůměrnou hodnotou proměnné SO 4 2-.