4.4 Exploratorní analýza struktury objektů (EDA) Průzkumová analýza vícerozměrných dat je stejně jako u jednorozměrných dat založena na vyšetření grafckých dagnostk. K tomuto účelu se využívá různých technk zobrazování vícerozměrných dat. Pro případ, kdy jsou jednotlvé sloupce matce X málo korelované postačují rozptylové dagramy pro jednotlvé kombnace složek vektoru x a pro nekorelované pak sloupce matce X. Obr. 4.1 Rozptylový dagram pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 nestandardzovaných dat B40, SCAN. Je patrná podobnost objektů a vysoká korelovanost zejména prvních dvo proměnných. Jso patrné odlehlé objekty, představované body vzdáleným od ostatních. Rychlé posouzení podobnost mez jednotlvým objekty čl řádky datové matce usnadňují především symbolové grafy. Jednotlvé proměnné jsou v nch "kódovány" s ohledem na jejch konkrétní hodnoty do určtých geometrckých tvarů, symbolů. Každému objektu x (např. autu) tak odpovídá jstý obrazec zvaný symbol. Vlastnost dat se posuzují s ohledem na vzuální rozdíly mez symboly. ím lze v jednom grafu rozlšt více proměnných x j, j = 1,..., m. Prvním krokem před vlastním zobrazením do symbolů je obvykle standardzace. Mez základní typy zobrazovaných symbolů patří profly, polygony, tváře, křvky a stromy. Profly představují dvourozměrné zobrazení m-rozměrných objektů. Každý objekt x je charakterzován m proměnným, zobrazeným zde vertkálním úsečkam. Jejch velkost je úměrná hodnotě odpovídající proměnné x, j = 1,..., m. Profl pak vznká spojením koncových bodů těchto úseček. Je vhodné použít standardzované j proměnné dle vzorce x ( j ' x j (max *x j *) kde max*x j* je maxmální hodnota absolutní velkost proměnné x j vektoru x přes všechny body, = 1,..., n. Profly jsou jednoduché a umožňují snadné určení rozdílů mez jednotlvým objekty x a x k. Snadno lze takto dentfkovat vybočující objekt.,
Obr. 4. Korelační dagram (Casement Plot) pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 nestandardzovaných dat B40, SAGRAPHICS. Je patrná vysoká korelovanost čtyř sledovaných proměnných. V pravém horním roh jso patrné odlehlé objekty. Polygony jsou vlastně profly v polárních souřadncích, kdy každá proměnná objektu x, = 1,..., n, odpovídá délce paprsku vycházejícího ze společného středu. Paprsky dělí kružnc ekvdstantně, proměnné jsou standardzovány do ntervalu [0, 1]. Mez polygony patří graf slunečních paprsků a hvězdcový graf. (a) Graf slunečních paprsků má tvar sluníčka, které se skládá z paprsků, začínajících ve společném bodě, a úseček spojujících paprsky, které tak tvoří polygon. Zde každá proměnná x j objektu x odpovídá délce paprsku vycházejícího ze středu sluníčka. Paprsky jsou rozmístěny ekvdstantně, ve stejných vzdálenostech na kružnc, a proto se provádí lneární transformace do ntervalu [a, 1], kde a je zvolená spodní mez, obyčejně a = 0. Pro tuto transformac platí, že x ( j ' (1 & a)(x j & mn max x j & mn kde mn x j je mnmální a max x j maxmální hodnota j-té proměnné objektu x přes všechny objekty x, = 1,..., n. K určení směrů jednotlvých paprsků se defnuje jejch úhel α j, pro který platí π (j & 1) α j ', j ' 1,..., m. m Za společný střed paprsků se obyčejně volí počátek souřadnc. Pokud má být maxmální délka paprsků rovna R, je polygon pro objekt x p j ' (x ( j R cos" j, x ( spojncí m bodů p j o souřadncích j R sn" j ). Aby vznkl uzavřený obrazec, spojují se ještě první a poslední bod p 1 a p m. Vzájemné porovnání polygonů slouží k vzuálnímu posouzení podobnost objektů. V případě velkého počtu proměnných, např. m > 6, bývá však výsledný obrázek polygonů nepřehledný. (b) Hvězdcový graf vypadá na první pohled jako předchozí graf sluníčka. Sestává z paprsků, reprezentujících relatvní hodnoty proměnných u jednotlvých objektů, které se pro každý objekt spojují v jednom centrálním bodě. Stejně směřující paprsky u různých objektů se lší svojí délkou. Nejkratší paprsek ndkuje, že u objektu nabývá příslušná proměnná nejmenší hodnoty z celého výběru. Podobně nejdelší paprsek nformuje o nejvyšší hodnotě příslušné proměnné. Délky ostatních paprsků se pohybují podle relatvní velkost hodnot proměnné u příslušného objektu mez těmto dvěma krajním mezem. x j x j ) % a,
Obr. 4.3a Hvězdčkový graf (Stars Plot) pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 standardzovaných dat B40, SAGRAPHICS. Obr. 4.3b Klíč ke hvězdčkovém graf pro 4 proměnné B40X1, B40X, B40X3, B40X4 standardzo-vaných dat B40, SAGRAPHICS.
váře charakterzují každou proměnnou x j objektu x nějakým znakem. Mez znaky patří tvar tváře, délka nosu, velkost očí, tvar úst atp. var tváře závsí na použtém pořadí proměnných, které ovlvňuje snadnost nterpretace dat. Obr. 4.4 váře nestandardzovaných dat B40 pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4, S-Plus. Lze nalézt řad vzájemně podobných tváří, kaz jících na podobnost objektů. vář Pfl thxol se jeví slně odlšná od ostatních. Obr. 4.5 váře zlogartmovaných dat B40 pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4, S-Plus. Logartmováním dat se rozdíly mez objekty poněk d setřo a odlehlé objekty nejso př porovnání podobnost tak výrazné odlšné. vář Pfl thxol se však stále jeví odlšná od ostatních.
Křvky využívají transformace každého objektu x do spojté křvky, která je lneární kombnací všech jeho 1 proměnných. Andrews volí pro vyjádření křvky f odpovídajícího objektu x konečnou Fourerovu řadu f x f x (t) ' f ' x 1 % x sn(t) % x 3 cos(t) % x 4 sn( t) % x 5 cos( t) %... Křvky f, = 1,..., n, se vynášejí jako funkce proměnné t v ntervalu -π # t # π. Funkce f mají řadu výhodných vlastností: a) Funkce f zachovávají průměr. o znamená, že pokud je x průměrem z celkového počtu n vícerozměrných dat x, je funkce rovna f x (t) ' 1 n n j f x (t), kde funkce (t) je "průměrná" křvka. '1 Obr. 4.6 Andrewsův graf křvek dat pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 nestandardzovaných dat B40, S-Plus, Graf kaz je na značno podobnost celé řady objektů. Jeden objekt je však výrazně odlšný od ostatních, jde o odlehlý objekt. b) Funkce f zachovávají vzdálenost. o znamená, že celková vzdálenost mez křvkam f a f j, defnovaná jako ntegrální kvadratcká odchylka, odpovídá vzdálenost mez objekty x a x j. Blízké křvky ukazují na nepřílš vzdálené objekty. 0 f x 0 0 c) Pro zvolenou hodnotu t je funkce (t ) projekcí objektu x na vektor p o složkách p 0 ' ( 1,sn(t 0 ), cos(t 0 ), sn(t 0 ), cos(t 0 ),...). ato projekce do jednoho bodu umožňuje odhalení vybočujících objektů č skupn objektů, které mohou být ve více dmenzích špatně dentfkovatelné. Křvka (t) je složena ze všech projekcí na daném ntervalu hodnot t. f x d) Funkce f zachovávají rozptyl. o znamená, že pokud jsou proměnné x j objektu x nekorelované náhodné velčny se stejným rozptylem σ, je D(f ) ' σ (0.5 % sn (t) % cos (t) % sn (t) % cos (t) %...). Pro lché m je D(f ) = 0.5 σ m a pro sudé m je 0.5 σ (m - 1) < D(f ) < 0.5 σ (m + 1). Rozptyl funkce f je téměř konstantní v celém rozmezí velčny t. V praktckých úlohách je běžné, že jednotlvé proměnné jsou slně korelované a mají nestejné rozptyly. Pak je výhodné převést objekty původních dat x na objekty y, kde y odpovídá transformac do j-té hlavní komponenty. j Velčny y jsou jž nekorelované. Snadno lze provést jejch standardzac tak, aby měly konstantní rozptyly. j Nevýhodou křvek je to, že jejch tvar závsí na pořadí složek. Na druhé straně lze pomocí křvek snadno ndkovat vybočující objekty nebo skupny objektů a konstruovat konfdenční křvky. Pro větší počty objektů (n > 10) dochází ke splývání křvek, což ztěžuje jejch nterpretac. Pak je možné vynášet pouze zvolené podskupny objektů. Stromy čl dendrogramy jsou vhodné pro případy, kdy je počet proměnných m objektu x velký. Jednotlvé složky x j představují délku větví schematckého stromu. Jeho struktura větví vznká na základě předběžného herarchckého shlukování proměnných (vz shluková analýza). Předběžná shluková analýza se dá použít také př výběru pořadí složek objektu x př konstrukc ostatních symbolových grafů