MEODA HLAVÍCH KOMPOE A EXPLORAORÍ AALÝZA VÍCEROZMĚRÝCH DA JIŘÍ MILIKÝ, Katedra textlních materálů, echncká unversta v Lberc, Hálkova 6 46 7 Lberec, e- mal: r.mlky@vslb.cz Motto: c není unversální MILA MELOU, Katedra analytcké cheme, Unversta Pardubce, Pardubce Abstrakt: Jsou osány základní logcké ostuy realzace metody hlavních komonent (dále PCA) vycházeící z různých hledsek. Je oednáno o zůsobech ředběžné analýzy dat, vlastní realzac PCA, možnostech vzualzace výstuů a různých zůsobech omezení vlvu vybočuících bodů. Je dskutováno o vhodnost využtí PCA v růzkumové analýze a možných úskalích. ěkteré tyy transformací a škálování dat sou demonstrovány grafcky..úvod Jednou ze základních úloh analytcké cheme e smultánní montorování úrovně různých látek (roměnných) v materálech, ovzduší, vodě a ůdě. Cílem e často zštění, zda dané látky (celkem ) neřekračuí zadané úrovně. Problémem e, že se ednotlvé látky navzáem ovlvňuí a v řadě říadů solu slně souvsí, takže se často šatně samostatně nterretuí. avíc se nformace o koncentracích těchto látek získávaí z různých zdroů (míst), které nesou nezávslé. o vše vede k ožadavku zkoumání struktur v datech a hledání vazeb mez látkam res. zdro. Obyčeně e ožadováno :. alézt kombnace ůvodních roměnných, které lée vysthuí data než ůvodní roměnné a obasnt ech význam. alézt struktury a souvslost v datech, které charakterzuí ednotlvém zdroe a ech možné vazby 3. Identfkovat nevýznamné kombnace složek (snížení dmense roblému a elmnace šumů) a vybočuící zdroe (ndkace res., elmnace atyckých zdroů) aké celá řada dalších úloh z oblast analytcké cheme vede na zracování vícerozměrných výběrů. Podobné roblémy se vyskytuí také v ných oborech, kde se zkoumá chování systémů ovlvněných smultánně řadou souvseících faktorů res. ř konstrukc modelů redkuících vlastnost výrobků z vlastností surovn atd. Vše e komlkováno tím, že se vychází z exermentálních dat, která maí v těchto říadech standardně některé secfcké zvláštnost: (a) rozsahy zracovávaných dat nesou obyčeně velké, (b) v datech se vyskytuí výrazné nelnearty, neadtvty a struktury, které e třeba dentfkovat a osat, (c) rozdělení dat en zřídka odovídá normálnímu běžně ředokládanému ve standardní statstcké analýze, (d) v datech se vyskytuí vybočuící měření a různé heterogenty,
(e) statstcké modely se často tvoří na základě ředběžných nformací z dat (datově orentované řístuy), (f) arametry statstckých modelů maí mnohdy defnovaný fyzkální význam, a musí roto vyhovovat velkostí, znaménkem nebo vzáemným oměrem, (g) exstue stá neurčtost ř výběru modelu, osuícího chování dat. Z hledska oužtí statstckých metod e roto žádoucí mít možnost zkoumat statstcké zvláštnost dat (růzkumová analýza), ověřovat základní ředoklady o datech a hodnott kvaltu výsledků s ohledem na základní schéma [] "data - model - statstcká metoda" oto schéma se ovažue za základ nteraktvní tvorby statstckých modelů všeho druhu. Př eho raktckém oužtí však nastávaí roblémy zeména v říadech, kdy se edná o vícerozměrné úlohy. Jž samotné znázornění dat vyžadue oužtí různých roekcí, které však vzhledem k multkolneartě, nelneartám a dmens roblému nemusí dobře ndkovat nař. tzv. vybočuící hodnoty (body), echž řítomnost může mít katastrofcké důsledky s ohledem na nterretac výsledků a raktcké závěry. Standardně se ro růzkumovou analýzu vícerozměrných dat oužívá metoda hlavních komonent (PCA), která e dnes běžnou součástí raktcky všech rogramových systémů ro vícerozměrná data. o vede ke stavu, že e rutnně využívána tak, ak e narogramována, což může často zůsobt otíže tam, kde e vhodné volt alternatvní cesty. V této rác e oednáno o zůsobech ředběžné analýzy dat, vlastní realzace PCA, možnostech vzualzace výstuů a různých zůsobech nterretace výsledků. Je dskutováno o vhodnost využtí PCA v regresní analýze a možných úskalích. Jednotlvé ostuy a metody sou demonstrovány na datech z textlního oboru.. Metoda PCA Většna metod vícerozměrné analýzy dat vychází z náhrady ůvodních roměnných (látek, faktorů), které sou korelované tzv. hlavním komonentam, které sou árově nekorelované (ortogonální). Hlavní komonenty sou většnou tvořeny lneární kombnací ůvodních roměnných a ř ech konstrukc se obyčeně defnuí další omezení určuící ednoznačně ech olohy. Jedním ze základních ožadavků bývá výběr takových směrů, které vždy vedou k maxmálnímu snžování celkové varablty dat []. U metody PCA e vstuem matce dat X (x) obsahuící hodnoty měření (vzorků) ro ůvodních roměnných. Výstuem e matce Z (x), obsahuící hodnoty měření (vzorků) ro hlavních komonent. Předokládeme nedříve, že matce X e sloucově centrovaná, t. sloucové růměry sou rovny nule (důvod tohoto centrování e uveden v ka.3 ). Matce Z e tvořena slouc hlavních komonent, které sou lneární kombnací slouců matce X, což znamená, že latí Z = X * A () kde A musí být ortogonální matce. Je zřemé, že matce Z e sloucově centrovaná. Z geometrckého hledska tvoří řádky matc Z a X body v rozměrném rostoru (souřadncovém systému) roměnných res.hlavních komonent. Exstue také nverzní transformace, která e vzhledem k ortogonaltě matce A dána vztahem X = Ζ * A () a základě vzáemných lneárních transformací lze určt, že X * X = Z * Z. Z této rovnost, t. nvarance matc skalárních součnů, lyne, že obou souřadncových systémech sou zachovány Eukledovské vzdálenost mez body a velkost úhlů, které svíraí vektory
souící tyto body s očátkem souřadnc. Vzdálenost a úhly defnované matcem skalárních součnů se často souhrnně označuí ako konfgurace. Je tedy atrné, že matce A zůsobue ouze rotac kolem očátku souřadnc. echť e symbolem G označená taková matce A zůsobuící rotac kolem očátku souřadnc, ro kterou sou hlavní komonenty vzáemně nekorelované. S oužtím matce G vede transformace rov. () ke tvaru Z = X * G (3) Slouce matce Z se ak označuí ako skóry hlavních komonent (dále skóry) a řádky defnuí souřadnce bodů vzhledem k tomuto souřadnému systému hlavních os. Protože e matce X X až na násobvou konstantu rovna matc kovaranční matc výběru musí latt, že Z * Z = G * X X * G = L (4) Jak bude ukázáno dále, obsahue matce G ako slouce vlastní vektory a dagonální matce L obsahue vlastní čísla matce X X. Standardně sou vlastní čísla setříděná sestuně t. L + L. Předokládeme, že matce X e tvořena slouc ůvodních roměnných X = ( x,.. x ). Pak lze ro ednotlvé hlavní komonenty t. slouce matce Z = ( z,.. z ) a ůvodní roměnné sát, že z = * x res. x = G (5) G = = yto relace ukazuí na vztah mez ůvodním a novým roměnným. V rostoru roměnných e vektor z součet složkových vektorů G * x. Délka tohoto vektoru e součet roekcí vektorů x do směru dané hlavní osy. Schematcky e kolmá roekce vektoru x na vektor z znázorněna na obr.. x cos = cos = x z ((x x)*(z z)) / (x x) ( ) =k*z Obr. Proekce vektoru x na vektor z z Z obr. e zřemé, že konstanta úměrnost k = ( x z) /( z z). Vektor e roekcí vektoru x na vektor z. Exstue tedy roekční matce Q, ro kterou e = Q * x = k = z * x /( z z) = [ z ( z z)] * x. Matce Q = z /( z z) e ortogonální roekční matce (t, symetrcká a demotentní). Délka vektoru e dána vztahem = = cos * x = x z / z = x * Q * x = k (6a) V kontextu PCA e vektor z vyádřen ako součet defnovaný rov (5) a řísěvek ednoho vektoru x k tomuto součtu e úměrný konstantě k. Př zkoumání vazeb mez vektory z a x umožňue tato analýza lée orozumět geometrckým souvslostem. Je zřemé, že délka vektoru z e dána výrazem z = z = L, kde L e odmocnna z - tého vlastního čísla. o lyne římo z rov. (3). Délka roekce vektoru x na vektor z e dán vztahem (vz. rov (6a))
x = = G * L (6) z V této rovnc bylo využto ortogonalty slouců matce Z t. z k = 0 ro k. Př konstrukc vektoru z se sčítaí složkové vektory vektorů G * x, takže e celková délka vektoru z vyádřtelná vztahem [] = z = L = G * = G * L (7) = Rov. (7) ukazue, že řísěvek každé ůvodní roměnné (v řítomnost ostatních) k délce vektoru z e úměrný čtverc G. Velčna L e úměrná směrodatné odchylce nové roměnné (hlavní komonentě). Zaímavé e také určení vazby mez vektory z a x, kdy ro odovídaící korelační koefcent r latí x G * L r = = (8) x x Ve statstcké termnolog e délka centrovaného vektoru úměrná směrodatné odchylce, rotože x * x = = roměnné. Z rov. (8) a (6) lyne,že x zde odovídá součtu čtverců odchylek hodnot odovídaících -té = G * L = x * r. Pokud e x =, latí že = r. K této stuac dode v říadě, že data sou standardzovaná, t. X X = R e rovna korelační matc. V matcovém vyádření e roekční matce roekcí x-vektorů do z-vektorů ve tvaru P = G*L a korelační matce ve tvaru R = S - *G*L. V některých říadech se ř rekonstrukc matce X využívá ouze omezeného očtu k < těch hlavních komonent, které nevíce řsívaí k snížení celkové varablty dat. Lze ukázat, že latí k = G t. / L k = Proekce vektoru x do k- rozměrného od-rostoru ouze rvních k hlavních komonent leží uvntř hyer-elsodu ehož oloosy sou L. Př konstrukc matce Z se běžně oužívá ouze omezený očet hlavních komonent, takže latí model k = G z e = x * + (0) kde chybový člen e souvsí s hlavním komonentam, které nebyly oužty ř rekonstrukc vektoru x, tedy e = * () G z = k + Délka vektoru e e maxmálně L k+, rotože latí, že G L V rozměrném rostoru měření (vzorků) e rov. (5) nterretovatelná ako lneární regresní model, kde vysvětluící roměnné sou ůvodní roměnné a vysvětlovaná roměnná e hlavní komonenta z. o e alternatvní motvace ro PCA. Je také možné uvažovat každou ůvodní roměnnou ako lneární kombnac všech ortogonálních hlavních komonent z =... Délky těchto složek sou roekce, které oskytuí souřadnce ro x s ohledem na směry hlavních komonent. = k + k +. (9)
Ze statstckého hledska se PCA uvažue ako osná vícerozměrná metoda založená na sektrálním rozkladu kovaranční matce Σ defnovaném vztahem (vz. rov. (3)) Σ = G * L * G () Předokládá se usořádání vlastních čísel odle velkost, takže tému vlastní číslo L = λ e co do velkost na -tém místě a odovídá mu -tý vlastní vektor G, t. -tý slouec matce G. Častým důvodem oužtí PCA e snížení rozměrnost roblému, kdy se místo ůvodních roměnných vybere enom k hlavních komonent odovídaících nevětším vlastním číslům, které obasňuí nevětší odíl varablty v datech. Pro účely růzkumové analýzy se vybíraí dvě nebo tř hlavní komonenty a data se znázorňuí v rostoru těchto hlavních komonent grafcky. o umožňue relatvně snadno odhalt struktury v datech ako sou skuny bodů, solované body atd. Pro osouzení struktur v datech e možné oužít né dvoce res. troce hlavních komonent a cháat PCA ako eden ze zůsobů D res. 3D roekce dat. Standardně se tvoří graf skórů t. slouců matce Z.ento graf e ochotelně slně ovlvněn transformací dat. Základní omezení naznačeného ostuu sočívaí v tom, že:. komonenty které obasňuí malou část varablty dat mohou být z hledska analýzy vícerozměrných dat významné. elze a ror odhadnout, aká část varablty dat e ž nevýznamná 3. Př oužtí ve soení s regresním modely nesouvsí často vůbec varablta vysvětluících roměnných s varabltou obasňovanou regresním modelem. Standardní ostu PCA ro růzkumové účely se dá rozdělt do těchto kroků [4]:. ransformace dat. Rozklad kovaranční res. korelační matce 3. Určení očtu významných hlavních komonent 4. Vzuální zobrazení vícerozměrných dat Standardně se vychází z vícerozměrných výběrů obsahuících měření (x... x ). Vektor x ro té měření obsahue složky (x, x x ). Výsledkem měření e tedy matce dat X řádu x obsahuící řádků (měření) a slouců (látek). Určení očtu významných hlavních komonent e velm kontroverzní úloha, rotože významnost charakterzovaná velkostí vlastních čísel nak nemusí souvset s významností ro os datových struktur. o e dobře atrné nař. v oblast oužtí PCA v regres. Přehled vybraných metod ro určování významných hlavních komonent odává ráce [4]. V říadě, kdy se PCA oužívá ro růzkumovou analýzu se rovádí roekce do dvou res. tří hlavních komonent a není obtížné vyzkoušet různé kombnace. Standardním výstuem PCA e graf skórů (slouců matce Z) ro vybrané dvoce hlavních komonent. ěkdy se tento graf dolňue o vektory roekcí ako řádků matce P = G * L a vznká kombnovaný graf. 3. ransformace dat ransformace dat může mít řadu říčn a důsledků. Obyčeně souvsí se secfkou ednotlvých roměnných a ech rozdělením. Secálním říadem transformace e lneární transformace nazývaná standardzace. Jak ž bylo ukázáno v ka., vychází standardní PCA z sloucově centrovaných dat (kovaranční matce C = X X ). Je však možné oužít také normovaná data vedoucí ke korelační matc R. Rozdíly v těchto dvou standardzacích sou zůsobeny různým vaham
ednotlvých ůvodních roměnných ř tvorbě matc skalárních součnů. Př oužtí kovaranční matce sou slouce matce X t. ůvodní roměnné "váženy" s ohledem na ech délku x, t. úměrně směrodatné odchylce v ůvodních ednotkách. Př oužtí korelační matce sou slouce matce X normovány tak, aby měly ednotkovou délku (nulový růměr a ednotkový roztyl). Váhy všech roměnných sou tedy stené, rotože délka všech roměnných e ednotková. Běžně se uvádí, že ro říad roměnných v různých ednotkách e vhodněší oužtí korelační matce. Bro a Smlde [3] rozebíraí odrobně různé varanty centrování a normování. Obecně latí, že centrování odstraní absolutní člen v modelech a tím sníží očet odhadovaných arametrů a vede k omezení numerckých otíží. Přtom nedochází ke změně struktury konfgurace (en se osune se do očátku souřadnc). ormování se oužívá k odstranění závslost na ednotkách a heteroskedastctě u ůvodních roměnných. ormování ovlvní krtérum odhadu arametrů (vážené nemenší čtverce). a druhou stranu e normování zcela nevhodné ro roměnné, které sou na úrovní šumu (odíl sgnál/šum e velm nízký). Zde dochází k nevítanému zvýraznění významnost. V rác [6] se dooručue oužtí vah /s (s e směrodatná odchylka dané roměnné) ro roměnné s výraznou řevahou sgnálu. Pokud e sgnál a šum na stené úrovn sou dooručeny váhy /(4s) a tam, kde e šumová složka řevládaící se dooručue vyuštění roměnné res. váha /(0s). U roměnných, kde některé hodnoty leží od mezí detekce d se určue odíl sgnál/šum (S/) ze vztahu I( x d) * x S / = d * d kde I(.) e ndkátorová funkce a d e očet hodnot od lmtou detekce d.pokud e S/< e roměnná raktcky šum. Pro 0, <S/< e roměnná málo odlšná od šumu. Praktcky toznamená, že řblžné konstantní hodnoty roměnné ve všech vzorcích ndkuí eí nevhodnost. V řadě říadů sou výchozí data vyádřená ako odíly z celku (nař. relatvní zastouení různých sloučenn a rvků). V celé řadě oblastí (nař. stoové analýze) e běžné oužívat logartmckou transformac dat. ato transformace má obecně některé výhody:. Omezue ůsobení extrémních hodnot. Snžue oztvní zeškmení dat běžné u řady výsledků měření 3. Stablzue nestený roztyl roměnných (heteroskedastctu) o znamená, že logartmcky transformovaná data ž není třeba dále normovat (ostačue sloucové centrování). Pro říad, že rozdělení dat e velm vzdálené od normalty, nebo sou v datech skuny vybočuících bodů dooručue se oužít ořadové transformace (hodnoty se nahradí ech ořadím). Pak lze místo korelačních koefcentů na báz momentů oužít Searmanovy ořadové korelační koefcenty. a základě orovnání těchto transformací se standardzací res. kombnace transformace a standardzace došel Baxter [5] k závěru, že logartmcká transformace a ořadová transformace sou výhodné zeména tam, kde se vyskytuí vybočuící hodnoty. Žádná transformace nevyšla ako otmální ro všechny říady. V chemometrcké lteratuře se vyskytuí eště další secální transformace vhodné ro secální účely [4]. 4. Konstrukce hlavních komonent Jak e atrné z rov. (3) e základem konstrukce hlavních komonent sektrální rozklad
kovaranční res. korelační matce na vlastní čísla a vlastní vektory. Jde o ednu ze základních úloh lneární algebry. S ohledem na řesnost a solehlvost se oužívá římo rozkladu matce X omocí metody SVD (sngular value decomoston). Metoda SVD, rozkládá lbovolnou obdélníkovou matc X (x) na tř matce t. X = U * S * V (3). Obyčeně se rovádí tzv. zkrácená SVD kterou uvažueme v dalším (ro zkrácenou SVD se mění rozměry matc U a S) Pro zkrácenou SVD e matce S (x) dagonální a obsahue na dagonále tzv. sngulární čísla matce X. Pokud má matce X hodnost r (t. obsahue ouze r lneárně nezávslých slouců) e rávě r kladných nenulových sngulárních čísel seřazených dle velkost, t. S S S 33... S rr. Matce U (x) a V (x) sou ortogonální a normované, takže latí U U = E a V V = E, kde E e ednotková matce. Pro zkrácenou SVD latí, že kladná sngulární čísla sou odmocnny z vlastních čísel matce X X ( ale také matce XX ), slouce u matce U sou vlastní vektory matce XX a řádky v matce V sou vlastní vektory matce X X. Platí, že sngulární čísla sou odmocnny z vlastních čísel, tedy S = L a matce V e rovna matc vlastních vektorů G. S využtím SVD lze rov. (3) vyádřt ve tvaru Z = U * S Důležtou vlastností SVD e že matce k ( k ) = u * S v X * e neblžší matce řádu k k matc X ve smyslu nemenších čtverců odchylek. Je tedy mnmalzováno krtérum ( X X. Je tedy atrná úzká souvslost s metodou ( k ) ) nemenších čtverců. Samostatným roblémem souvseícím s rozkladem na vlastní čísla vlastní vektory e ctlvost na vybočuící body. Exstuí v zásadě dvě možnost ak realzovat PCA v řítomnost slně vybočuících bodů. První sočívá v ech dentfkac a odstranění a druhý v oužtí robustních metod. Ukažme s základní roblémy s dentfkací vybočuících bodů. echnky ndkace vybočuících bodů sou ctlvé na tzv. maskování, kdy vybočuící se eví ako korektní (díky zvětšení kovaranční matce) nebo řekryt, kdy řítomnost vybočuících měření zůsobí, že některá srávná měření leží mmo akcetovatelnou oblast.(díky zkreslení kovaranční matce). Schematcky sou tyto stuace znázorněny na obr. (vybočuící body sou tmavé). A. maskování B. řekryt Obr. Příklad maskování (A) a řekrytu (B) Znázornění na obr. vychází z faktu, že čtverce zobecněných vzdáleností maí χ rozdělení (elsa e tedy hranční oblast odděluící dobrá (D) a vybočuící (V) data.
Řada metod ro dentfkac vybočuících bodů fungue en ro některé stuace nebo modely datových struktur. Příkladem sou technky uvažuící ouze edno vybočuící měření (testy založené na odchylkách od růměru atd.) nebo secální metody ro regresní modely. Samostatným roblémem e nterretace vybočuících hodnot. Exstuí dvě mezní stuace: A. Vybočuící měření e chybné. o e třeba. říad, kdy vznkne chyba ř měření, res. zracování dat (nař. místo 0.74 e oužta hodnota 74). B. Vybočuící měření e srávné. o e říad, kdy byl oužt nesrávný ředoklad o rozdělení dat (nař. normalta ro říad, že reálné rozdělení e slně zeškmené) nebo de o tzv. řídké evy (které se u malých výběrů mohou evt ako vybočuící). V realtě nelze často rozhodnout, o který říad se vlastně edná. Problém e také v tom, co s vybočuícím hodnotam dělat. Přímá možnost, t. ech odstranění e nebezečná ze dvou důvodů: a) data se uravuí tak, aby vyhovovala ředokládanému modelu a nelze tedy dobře osoudt eho vhodnost, b) varablta dat vyde extrémně nízká, což se může negatvně roevt ř orovnání s novým daty, res. nformacem Jednotný ostu zde neexstue a záleží na exermentátorov, res. zracovatel akou varantu zvolí.vzhledem k tomu, že vybočuící body sou většnou extrémně vlvné vede zde nevhodná manulace ke ztrátě nformací a nesrávným závěrům. Předokládeme ro ednoduchost, že data maí rozměrné normální rozdělení ( μ, Σ ), kde μ e vektor středních hodnot a Σ e kovaranční matce. Vybočuící měření leží v oblast out( μ, Σ ) = ( x R : ( x μ) Σ ( x μ) > χ ) ato oblast okrývá celý rostor E s vyloučením vícerozměrného elsodu kolem vektoru středních hodnot. Vybočuící body sou tedy řílš vzdáleně od střední hodnoty. Oblast vybočuících bodů OR ro výběr velkost e určena výrazem OR(,, x) = ( x R : ( x x A ) C ( x x A ) > c(,, )) kde = ( ) ro = 0.05, 0.. Vše co leží v OR e vybočuící. Oblast vybočuících bodů úzce souvsí se zobecněnou (Mahalanobsovou) vzdáleností res. ech čtvercem d = ( x x A ) C ( x x A ) Jako vybočuící se ak dentfkuí ty body, ro které e d > c(,, ) Pro říad vícerozměrného normálního rozdělení a velké výběry e c(,, ) dáno kvantlem chí kvadrát rozdělení c(,, ) = χ ( / ) Pro malé výběry e lée oužít modfkovaný koefcent * ( ) * F, ( / ) c(,, ) = * ( n + * F, ( / )) Aby bylo možno oužít zobecněné vzdálenost ro dentfkac vlvných bodů, e třeba určt čsté odhady x A a C. Pro robustní odhad kovaranční matce se často volí []: - M odhady - S odhady mnmalzuící det C s omezením - Odhady mnmalzuící obem konfdenčního elsodu
Př růzkumové analýze se vlastně očekává, že vybočuící body budou výrazné na grafech, ale zkreslení hlavních komonent ako souřadncového systému e nežádané. Pokud získáme čsté odhady zeména kovaranční matce lze římo sestavt nezkreslené hlavní komonenty a ak sou vybočuící body lée dentfkovatelné na grafech. Je tedy atrné, že robustní metody úzce souvsí s dentfkací vlvných bodů. Z celé řady robustních metod navržených ro PCA sou často oužívané technky, kdy se hledaí hlavní komonenty maxmalzuící robustní odhad roztýlení dat. Příkladem e ostu robpca [7] res. RAPCA. Jednoduché sou metody stanovení čsté odmnožny dat složený z těchto kroků:.výběr základní odmnožny bud na základě - Mahalanobsovy vzdálenost a uřezání odezřelých dat - Vzdálenost od medánu Výsledkem e odmnožna čstých dat s arametry x Ac C c. Výočet rezduí d = ( x x ) C ( x x ) A C C 3. dolnění čsté odmnožny o body s rezduem menším než A C c χ, kde * c = max(0,( h r) /( h + r)) ; h = ( n + +) / c = + ( + ) /( n ) + /( n 3) c = c +c 4. Skončení rocesu v okamžku, kdy se ž nc neřdává an neubírá Poměrně ednoduchá e metoda využívaící kombnace dentfkace otencálně vybočuících bodů a uřezaných odhadů. V té terac se určí uřezané odhady x RC a C C, kde se uřezává defnované rocento ( obyčeně 30%) bodů s nevyšším zobecněným vzdálenostm z vektoru d - vyočítaného v - té terac. Z takto získaných odhadů se vyočte vektor oravených zobecněných vzdáleností d a řechází se na + ní terac. Proces e ukončen, když se ve dvou následuících teracích nemění odhady arametrů x RC a C C. Po získání fnálních odhadů ž ostačue oužít klasckou PCA na matc C C. 5. Program PCA Program PCA v azyce MALAB byl sestaven tak aby umožnl různé tyy transformace dat, standardzace a říadně robustní odhad hlavních komonent. Vychází se z SVD metody. Program obsahue tyto základní volby:. y transformace ( bez transformace, logartmcká transformace a ořadová transformace). y škálování (sloucové centrování, vážení omocí směrodatných odchylek, a normování) 3. Druh odhadu hlavních komonent (standardní metoda a robustní RAPCA) Grafckým výstuem e ředevším kombnovaný graf skórů a roekcí. Pro lustrac rogramu sou na obr -4 ukázány kombnované grafy ro různé tyy voleb. Byl zvolen říklad z oblast orovnání 8 vlastností bavlněných vláken. Data sou osána v rác [8].
A B C D E F Obr. Vlv volby transformace a metody odhadu korelační matce na kombnované grafy A (centrovaná data, klascká metoda), B(centrovaná data robustní metoda), C(centrovaná data, logartmy, klascká metoda), D (centrovaná data, ořadová transformace, klascká metoda), E (ako A ale normovaná data), F (ako D ale normovaná data)
8. Závěr Je atrné, že metoda PCA má celou řadu secfckých zvláštností. V řadě říadů e třeba ve zdánlvě ednoduchých stuacích oužívat oměrně secální ostuy. Formální aarát PCA res. transformace dat bez hlubšího rozboru zde může vést ke zkresleným nformacím. Poděkování: ato ráce vznkla s odorou výzkumného centra extl L00B090 a grantu B/739-3. 9. Lteratura [] Meloun M., Mltký J.: Zracování exermentálních dat, East Publshng Praha 998 [] Arnold A., Collns A., J.: Al. Statst. 4,38, (993) [3] Bro R., Smlde A, K.: J. Chemometrcs 7,6 (003) [4] Johnson G.W., Ehlch R.: Envronmental Forensc 3,59 (00) [5] Baxter M.,J.: Al. Statst.. 44, 53 (995) [6] Paatero P., Hoke P. K.: Analytca Chmca Acta -3 (003) v tsku [7] Smolnsk A., Walczak B., Enax J., V.: Chemoshere 49, 33, (00) [8] El Mogahzy E., Broughton R.M.: ext.res.j.59, 440 (989)