4.5 Určení struktury a vazeb v proěnných a obektech Zdroová atice á rozěr n. Před vlastní aplikací vhodné etody vícerozěrné statistické analýzy e třeba vždy provést exploratorní (průzkuovou) analýzu dat, která uožňue (a) posoudit podobnost obektů poocí rozptylových a sybolových grafů, (b) nalézt vybočuící obekty, resp. eich proěnné, (c) stanovit, zda lze použít předpoklad lineárních vazeb, (d) ověřit předpoklady o datech (noralitu, nekorelovanost, hoogenitu). Jednotlivé techniky k určení vzáených vazeb se dále dělí podle toho, zda se hledaí (a) struktura a vazby v proěnných nebo (b) struktura a vazby v obektech: () Hledání struktury v proěnných v etrické škále: faktorová analýza FA, analýza hlavních koponent PCA a shluková analýza. (2) Hledání struktury v obektech v etrické škále: shluková analýza. (3) Hledání struktury v obektech v etrické i v neetrické škále: vícerozěrné škálování. (4) Hledání struktury v obektech v neetrické škále: korespondenční analýza. (5) Většina etod vícerozěrné statistické analýzy uožňue zpracování lineárních vícerozěrných odelů, kde závisle proěnné se uvažuí ako lineární kobinace nezávisle proěnných, resp. vazby ezi proěnnýi sou lineární. V řadě případů se také uvažue noralita etrických proěnných. Určení struktury a vzáených vazeb ezi proěnnýi ale i ezi obekty se zabývaí techniky redukce proěnných na latentní proěnné, etoda analýzy hlavních koponent (PCA) a etoda faktorové analýzfa). Důležitou etodou určení vzáených vazeb ezi proěnnýi e i kanonická korelační analýza CA, která se používá ke zkouání závislosti ezi dvěa skupinai proěnných, přičež edna ze skupin se považue za proěnné nezávislé a druhá za skupinu proěnných závislých. 4.5. Analýza hlavních koponent (PCA) Cíle etody e transforace dat z původních proěnných x, =,...,, do enšího počtu latentních proěnných i y. yto proěnné aí vhodněší vlastnosti, e ich výrazně éně, vystihuí téěř celou proěnlivost původních proěnných a sou vzáeně nekorelované (korelační koeficient ezi latentníi proěnnýi y,..., y e 0). Latentní proěnné sou u této etody nazvány hlavníi koponentai a sou to lineární kobinace původních proěnných: první hlavní koponenta y popisue nevětší část proěnlivosti čili rozptylu původních dat, druhá hlavní koponenta y 2 zase nevětší část rozptylu neobsaženého v y atd. Mateaticky řečeno, první hlavní koponenta e takovou lineární kobinací vstupních proěnných, která zahrnue nevětší proěnlivost ezi všei lineárníi kobinacei. Má tvar y ' x, ' v x ' v kde obekt x obsahue proěnné x,..., x. Pro vektor koeficientů v = (v,..., v ) platí, že proěnlivost vyádřená rozptyle D(y ) ' v Sv e axiální, přičež S značí kovarianční atici původních dat. Zcela analogicky sou konstruovány další hlavní koponenty, eichž celkový počet e roven enšíu ze dvou čísel, a to n (počet obektů) nebo (počet proěnných). Protože platí, že součet rozptylů všech hlavních koponent e roven součtu rozptylů vstupuících původních proěnných, ůžee z podílu rozptylů ednotlivých hlavních koponent usuzovat na část proěnlivosti vysvětlenou dotyčnou hlavní koponentou. Jestliže součet prvních (nevyšších) A podílů proěnlivosti e dostatečně blízký edné, resp. 00 % (obvykle však stačí 80 % - 90 %), postačí brát v úvahu právě těchto prvních A hlavních koponent pro dostatečné vysvětlení variability původních proěnných. Rozdíl ezi souřadnicei obektů v původních proěnných a v hlavních koponentách čili ztráta inforace proekcí do enšího počtu rozěrů se nazývá špatnou írou těsností proložení odelu PCA nebo také chybou odelu PCA. I při velké počtu původních proěnných () ůže být A veli alé, často 2 až 5. Volba počtu užitých koponent A představue vlastní odel hlavních koponent PCA. Vysvětlení užitých hlavních koponent, eich poenování a vysvětlení vztahu původních proěnných x, =,...,, k hlavní koponentá y, k =,..., A, tvoří doinantní součásti zvoleného odelu hlavních koponent PCA. k Vlastní ateatický postup PCA e následuící: axializací při zavedení noralizační podínky v v = vyde, že (S & 8 I) v ' 0,
kde 0 označue nulový vektor, λ e nevětší vlastní číslo a v e odpovídaící vlastní vektor kovarianční atice S a I e ednotková atice. Po dosazení vyde D(y ) ' v Sv 8. Analogicky lze odvodit, že vektor koeficientů v 2 ve vztahu y 2 ' v 2 x, axializuící D(y 2) za podínky, že cov(y, y) 2 = 0, odpovídá vlastníu vektoru, příslušeícíu druhéu nevětšíu vlastníu číslu λ 2. Provedee-li rozklad kovarianční atice S na vlastní čísla λ $ λ 2... $ λ, sou odpovídaící vlastní vektory v, v 2,..., v přío koeficienty hlavních koponent y,..., y. Hlavní koponenty aí řadu zaíavých vlastností. - Lze e interpretovat ako hlavní osy -rozěrného elipsoidu x S x = konst. K odstranění závislosti na ednotkách původních proěnných se lépe užívá standardizovaných proěnných * x s prvky x ( ' (x & x )/F ' k x ( k, k' PCA uožňue rozklad atice dat X na strukturní část P a šuovou část E dle vztahu X ' P % E, '. Pro -tou hlavní koponentu pak platí kde e vlastní vektor korelační atice R odpovídaící -téu nevětšíu vlastníu číslu. Hlavní koponenty, určené z korelační atice R, sou však hůře interpretovatelné. Platí, že = λ, nikoliv rovno edné. Pro účely zobrazení vícerozěrných dat různého ěřítka sou však vhodněší standardizované než původní y. kde e atice koponentního skóre a P e atice koponentních vah, E e atice reziduí. Modele hlavních koponent PCA nazýváe součin P. Matice reziduí E není součástí odelu, týká se odele PCA nevysvětlované části dat X. Je to část dat, která není zahrnuta v odelu P a představue íru netěsnosti proložení původních reálných dat odele PCA. Model hlavních koponent PCA X ' t p % t 2 p 2 %... % t A p A % E se vypočte postupe:. Vypočte se t a p z X a vyčíslí se E = X - t p. 2. Vypočte se t 2 a p 2 z E a vyčíslí se E 2 = E - t2 p 2. 3. Vypočte se t 3a p 3 z E 2 a vyčíslí se E 3 = E 2 - t3 p 3 a pokračue se tak dlouho, až se vyčíslí všech A koponent, A = in(n, ). Výhodou postupu e snížení počtu proěnných, snížení dienzionality a dále rozdělení původní atice dat X na část strukturní P a část šuovou E. Když bycho použili celý PCA odel, pak e E rovno nule. Musíe ale hledat optiální počet využitelných hlavních koponent A tak, abycho dosáhli nelepšího proložení a aby atice E byla téěř nulová a eí absolutní velikost byla srovnatelná s experientální chybou dat. o e ústřední yšlenka vícerozěrné analýzy dat: uživatel usí navrhnout počet hlavních koponent A tak, aby byla atice reziduí co neenší. Velká hodnota E znaená špatný odel, alá hodnota E dobrý odel. eríny alý, velký, dobrý, špatný sou však pouze kvalitativní. Vyhodnocení E e relativní k centrovanéu počátku, t. středníu obektu, který á souřadnice v aritetické průěru každé proěnné a představue počátek (0, 0,..., 0). Je vhodné říkat, že de o nulu hlavních koponent. První operace e totožná s centrování proěnných původní atice dat X. o znaená, že pro A = 0 bude reziduálová atice E 0 totožná s centrovanou aticí X. Zde E 0 hrae důležitou roli ako referenční stav, ke kteréu budee přirovnávat velikost klesaící hodnoty E, takže pro A = 0 bude E 0 = 00 % a člen P = 0 %. Velikost E představue chybový výraz, který vyčíslíe běžný statistický způsobe. Buď vyádříe rezidua ako rezidua obektů (v řádcích) nebo rezidua proěnných (ve sloupcích). Rezidua obektů (v řádcích): rozptyl reziduí i-tého obektu se týká průěru středově centrovaných dat a e dán vztahe e i ' e 2 ik k' a odpovídá vzdálenosti ezi i-tý obekte a hyperplochou A hlavních koponent. Je to vzdálenost, která byla inializována neenšíi čtverci, když se určovaly hlavní koponenty. Proto e rozptyl reziduí obektu írou vzdálenosti ezi prostore proěnných obektu a reprezentací obektu v prostoru hlavních kopo-nent. Platí přito pravidlo: čí enší bude tato vzdálenost, tí těsněší bude reprezentace obektu v prostoru hlavních koponent (čili PCA odel) vůči původníu obektu. Řádky v atici E sou nepřío úěrné těsnosti proložení původních dat PCA odele. Celkový rozptyl reziduí obektu e sua rozptylu reziduí všech obektů e dle vztahu tot 8 (
n e tot ' e 2 i. i' Graf reziduí ednotlivých obektů. Rozptyl reziduí ednoho i-tého obektů představu-e vzdálenost ezi obekte a odele. Je vhodné zobrazovat tuto veličinu pro všechny obekty a odhalit tak odlehlé obekty či iné anoálie. Graf celkového rozptylu reziduí. Metodou hlavních koponent PCA se vyčíslí E 0, E, E, 2... a z nich e tot,, e tot,2,... a ty se vynesou do indexového grafu úpatí proti indexu A. Protože e snaha o poenování a vysvětlení hlavních koponent, e správný počet hlavních koponent A veli důležitý: e-li počet A příliš alý, podceněný odel způsobí povrchní popis datové struktury. Je-li počet A příliš velký, přeceněný odel e eště horší, protože zahrnue do své struktury také část šuu. Existue pravidlo, že velká proěnlivost v datech odpovídá hlavníu evu, například proěňované koncentraci, zatíco alá proěnlivost odpovídá spíše šuu. V analýze dat se snažíe odhalit stěžení ev, o které předpokládáe, že doinue v datech. V PCA platí pravidlo, že velké hlavní koponenty odpovídaí nedůležitěší inforaci, kterou vlastně hledáe, zatíco alé hlavní koponenty odpovídaí spíše šuu a sou pro strukturu dat obvykle nepodstatné. Malé hlavní koponenty ohou být proto zahrnuty do atice E. Cíle PCA e odfiltrování šuu z dat a soustředění se na strukturní, bezšuovou část dat. Graficky lze výsledek analýzy hlavních koponent zobrazit v několika grafech hlavních koponent následuící způsobe: (a) Indexový graf úpatí vlastních čísel (Scree Plot) e vlastně sloupcový diagra vlastních čísel nebo reziduálního rozptylu proti stoupaící hodnotě indexu, pořadového čísla A (obr. 4.7). Zobrazue relativní velikost ednotlivých vlastních čísel. Řada autorů ho s oblibou využívá k určení počtu A "užitečných" hlavních koponent. Cattel vysvětlue scree ako zloové ísto ezi kolou stěnou a vodorovný dne. Vybrané "užitečné" hlavní koponentnebo také faktory) pak tvoří kolou stěnu a "neužitečné" hlavní koponentnebo faktory) představuí vodorovné dno. Užitečné koponenty sou tak odděleny zřetelný zloový íste a souřadnice x tohoto zlou e hledaná hodnota indexu. Jiný, hrubší kritérie e pravidlo, podle kterého využíváe ty hlavní koponenty, eichž vlastní číslo e větší než edna. Graf úpatí se však eví obektivněší. (b) Graf koponentních vah, zátěží (Plot Coponents Weights) zobrazí koponentní váhy pro první dvě hlavní koponentobr. 4.8). V toto grafu se porovnávaí vzdálenosti ezi proěnnýi. Krátká vzdálenost ezi dvěa proěnnýi znaená silnou korelaci. Lze nalézt i shluk podobných proěnných, ež spolu koreluí. ento graf ůžee považovat za ost ezi původníi proěnnýi a hlavníi koponentai, protože ukazue, akou ěrou přispívaí ednotlivé původní proěnné do hlavních koponent. Někdy se podaří hlavní koponenty y, y, 2... poenovat, vysvětlit a přidělit i fyzikální, cheický nebo biologický význa. Pak lze názorně vysvětlit, ak ednotlivé původní proěnné x, =,...,, přispívaí do první hlavní koponenty y nebo do druhé hlavní koponenty y. Některé původní proěnné x přispívaí kladnou vahou, některé zápornou. Bývá zaíavé sledovat 2 kovarianci původních proěnných x v prostorové 3D grafu koponentních vah y, y a y. Jsou-li proěnné x, 2 3 =,...,, blízko sebe v prostorové shluku, de o silnou pozitivní kovarianci. Kovariance však neusí eště nutně znaenat korelaci. Výklad grafu koponentních vah lze obecně shrnout do následuících bodů:. Důležitost původních proěnných x, =,..., : proěnné x s vysokou írou proěnlivosti v datech obektů aí vysoké hodnoty koponentní váhy. Ve 2Ddiagrau prvních dvou hlavních koponent pak leží hodně daleko od počátku. Proěnné s alou důležitostí leží blízko počátku. Když určíe důležitost proěnných, určíe tí také proěnlivost proěnných: estliže například y obasňue 70 % proěnlivosti a y eno 5 % (přečteno z indexového grafu úpatí vlastních čísel), sou původní proěnné 2 x, =,...,, s vysokou vahou v y tí páde nohe důležitěší než proěnné x s vysokou vahou v y. 2 Proěnné s úhle 0E ezi průvodiči sou zcela pozitivně korelované, proěnné s úhle 90E sou zcela nekorelované zatíco proěnné s úhle 80E sou sice nekorelované, říkáe však lépe že sou negativně korelované. 2. Korelace a kovariance: původní proěnné x, =,...,, sou blízko sebe, anebo proěnné x s alý úhle ezi svýi průvodiči proěnných a na stené straně vůči počátku aí vysokou kladnou kovarianci a vysokou kladnou korelaci. Naopak, původní proěnné x daleko od sebe, anebo s veliký úhle ezi průvodiči proěnných, sou negativně korelovány. 3. Spektroskopická data: ve spektroskopických datech e -rozěrný graf koponentních vah často nevhodněší. I zde platí pravidlo, že vysoké koponentní váhy představuí vysokou důležitost proěnných x (vlnových délek).
(c) Rozptylový diagra koponentního skóre (Scatterplot) zobrazue koponent-ní skóre čili hodnoty obyčeně prvních dvou hlavních koponent u všech obektů (obr. 4.9). Dokonalé rozptýlení obektů v rovině obou hlavních koponent vede k rozlišení obektů při eich popisu poocí y a y. V rovině lze snadno nalézt shluk 2 vzáeně podobných obektů a dále obekty odlehlé a silně odlišné od ostatních. Diagra koponentního skóre však ůže být i ve 3 či více hlavních koponentách a v rovin-né grafu se pak sledue pouze eho průět do roviny. ento diagra se užívá k identifikaci odlehlých obektů, identifikaci trendů, tříd, shluků obektů, k obasnění podobnosti obektů atd. Je neožné analyzovat všechny diagray, protože ich e veli noho: uvažue například < n a pro = 0 proěnných existue (-)/2 = 45 diagraů, pro = pak 55 diagraů, pro = 2 pak 66 diagraů, atd. Obvykle vybíráe diagray y vs. y, y vs. y, y vs. y atd. Držíe se první hlavní koponenty y, protože v ní bývá něvětší íra 2 3 4 proěnlivosti v datech. Interpretace rozptylového diagrau koponentního skore lze shrnout do těchto bodů:. Uístění obektů. Obekty daleko od počátku sou extréy. Obekty neblíže počátku sou netypičtěší. 2. Podobnost obektů. Obekty blízko sebe si sou podobné, obekty daleko od sebe sou si nepodobné. 3. Obekty v shluku. Obekty uístěné zřetelně v edno shluku sou si podobné a přito nepodobné obektů v ostatních shlucích. Dobře oddělené shluky prozrazuí, že lze nalézt vlastní odel pro saotný shluk. Jsou-li shluky blízko sebe, znaená to značnou podobnost obektů. 4. Osaělé obekty. Izolované obekty ohou být odlehlé obekty, které sou silně nepodobné ostatní obektů. Pravidlo platí, pokud se needná o zdánlivou nehoogenitu danou sešikení dat a odstranitelnou transforací proěnných. 5. Odlehlé obekty. V ideální případě bývaí obekty rozptýlené po celé ploše diagrau. V opačné případě e něco špatného v odelu, obyčeně e přítoen silně odlehlý obekt. Odlehlé obekty sou totiž schopny zbortit celý diagra, ve srovnání se silně vybočuící obekte sou ostatní obekty nakuulovány do ediného úzkého shluku. Po odstranění vybočuícího obektu se ostatní obekty roztřídí po celé ploše diagrau a teprve vypovídaí o existuících shlucích. 6. Poenování obektů. Výstižná éna obektů slouží k hledání hlubších souvislostí ezi obekty a ezi poenovanýi hlavníi koponentai. Snadno obkroužíe shluky podobných obektů nebo nakreslení spoky ezi obekty vystihnee tak eich fyzikální či biologický vztah. 7. Vysvětlení ísta obektu. Uístění obektu na ploše v diagrau ůže být porovnáváno s koponentníi vahai původních proěnných ve dvoné grafu a poocí původních proěnných pak i vysvětleno. (d) Dvoný graf (Biplot) kobinue předchozí dva grafobr. 4.0). Úhel ezi průvodiči dvou proěnných x a x k e nepřío úěrný velikosti korelace ezi těito dvěa proěnnýi. Čí e enší úhel, tí e větší korelace. Každý průvodič á své souřadnice na první a na druhé hlavní koponentě. Délka této souřadnice e úěrná příspěvku původní proěnné x do hlavní koponety, čili e úěrná koponentní váze. Kobinace obou grafů v ediné přináší cenné srovnání, eden graf působí zde doplňkově vůči druhéu. Když se ve dvoné grafu nachází obekt v blízkosti určité proěnné x, znaená to, že tento obekt obsahue hodně právě této proěnné a e s ní v interakci. Interakce proěnných a obektů uožňue také vysvětlit uístění obektů vpravo od nuly na ose či vlevo od nuly) poocí pozice proěnných v toto grafu, resp. uístění nahoře od nulči dole od nuly) na ose y. 2 (e) Indexový graf úpatí rozptylu reziduí (Residual Scree Plot). V PCA se vyčíslí E, E, E,..., z nich e 0 2 tot,, e,... a ty se vynesou do indexového grafu úpatí proti indexu A. Poslední bod bude pro enší ze dvou čísel n tot,2 nebo, A = in(n, ). Zlo na křivce úpatí e = f(i) ukazue na optiální počet hlavních koponent A, na tot,i nelepší dienzionalitu. V toto bodě končí struktura a začíná šu. Graf e co do použití naprostou obdobou indexového grafu úpatí vlastních čísel. (f) Graf reziduí ednotlivých obektů. Rozptyl reziduí ednoho i-tého obektu představue vzdálenost ezi obekte a odele. Je vhodné zobrazovat tuto veličinu pro všechny obekty a odhalit odlehlé obekty či iné anoálie. Diagnostikování častých probléů v PCA: v analýze etodou hlavních koponent se často setkáváe s následuícíi probléy:. Data neobsahuí předpokládanou inforaci. Vysvětlení grafů a diagraů etody PCA neá sysl, protože data neobsahuí inforaci, popisuící studovaný problé. 2. Užito příliš álo hlavních koponent. V odelu PCA bylo použito příliš álo latentních proěnných. Nedostatečné vysvětlení dat vede ke ztrátě inforace. Problé se ůže vyřešit opětovný rozbore grafu úpatí vlastních čísel.
3. Užito příliš noho hlavních koponent V odelu PCA bylo zahrnuto příliš noho latentních proěnných, což ůže vyvolat vážnou chybu, protože šu e zahrnut do odelu. 4. Neodstranění odlehlých obektů. Odlehlé obekty ohou být důvode hrubých chyb v datech. Do odelu sou vtahovány spíše hrubé chyby než zaíavé proěnlivosti v datech obektů. 5. Odstraněné odlehlé obekty obsahovaly důležitou inforaci. Ztrátou určitých obektů se vytratila důležitá inforace z dat a nalezený odel e proto zkreslený. 6. Koponentní skóre e nedostatečně analyzováno. Nedostatečný rozbore důležitého rozptylového diagrau byly zanedbány důležité rysy v datech. 7. Vysvětlení koponentních vah se špatný počte hlavních koponent. Může vést k vážnéu zkreslení výkladu. Může totiž doít k vyutí důležitých proěnných, protože se zdaí býti odlehlýi. ento graf e oste ezi prostore původních proěnných a prostore hlavních koponent PC. Když zvolíe špatný prostor PC, tento ost už ná noho nepoůže. 8. Přecenění standardních diagnostik v software. Je třeba hodně rozvažovat a přeýšlet o úloze saé a specifické probléu řešené před pohodlný přebírání počítačových výsledků. 9. Užití špatného předzpracování dat. Chybná předúprava dat (ve škálování užitého centrování nebo standardizace, transforace logaritická, ocninná, Boxova-Coxova atd.) ůže vést ke zkreslený závěrů a neporozuění úloze. Způsob předúpravy dat e obecně dán type úlohy a druhe instruentálních dat a ůže vést ke ztrátě inforace. Postup etody hlavních koponent (PCA) Problé usí být správně a přesně definován. Je odpovědností řešitele, aby data obsahovala dostatek relevantní inforace k řešení probléu. Ani nelepší počítačová etoda neůže kopenzovat nedostatek inforace v datech. Maticový graf korelace proěnných slouží k získání počáteční inforace o celé datové souboru. Odhalí, zda data potřebuí škálování. Při první seznáení s daty se v ráci exploratorní analýzy, ka také patří etoda hlavních koponent PCA, aplikue první výpočet touto etodou. Data e obvykle potřeba škálovat nebo alespoň centrovat. Lze vyzkoušet i ostatní fory předúpravy dat. V toto stadiu se vždy vyčísluí všechny hlavní koponenty. První diagray koponentního skóre slouží k odhalení odlehlých hodnot, tříd, shluků a trendů. Jsou-li obekty roztříděny do dobře oddělených shluků, e třeba určit způsob, ak e z dat oddělit a shluky pak analyzovat odděleně. Nikdy se nepokoušíe odhalovat a odstraňovat odlehlé proěnné, ohlo by pak doít k odstranění cenné inforace. Po redukci datového souboru na několik podsouborů, kdy shluky sou odelovány odděleně, se znovu aplikue etoda hlavních koponent PCA na ednotlivé podsoubory.. Vyšetření indexového grafu úpatí vlastních čísel: z hrany v toto diagrau se určí nelepší počet hlavních koponent. 2. Výpočet vlastních vektorů pro hlavní koponenty: vedle číselných hodnot se užívá i názorný čárový diagra hodnot vlastních čísel vektorů, který přehledně inforue o zastoupení původních proěnných x, =,...,, v hlavních kopo-nentách. 3. Výpočet koponentních vah: atice párových korelačních koeficientů ukazue na korelaci původních proěnných s hlavníi koponentai. Čárový diagra názorně vysvětlue korelační strukturu ezi oběa druhy proěnných. Uživatel nyní vybere pouze prvních A hlavních koponent a vytvoří tak PCA odel. 4. Vyšetření grafu koponentních vah. 5. Vyšetření rozptylového diagrau koponentního skóre. 6. Vyšetření dvoného grafu. 7. Vyšetření grafu úpatí reziduí obektů: rezidua obektů a rezidua proěnných by ěla prokazovat dostatečnou těsnost proložení. Není-li tou tak, e třeba se navrátit k předúpravě dat a celý výpočet PCA opakovat.