METODA HLAVNÍCH KOMPONENT A EXPLORATORNÍ ANALÝZA VÍCEROZMĚRNÝCH DAT

Podobné dokumenty
VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

Přednáška č. 11 Analýza rozptylu při dvojném třídění

n lokální působení různých vnějších faktorů ovlivňujících růst a zánik živých organismů n lokální variace vnitřních proměnných biologických systémů.

Úloha syntézy čtyřčlenného rovinného mechanismu

Regresní lineární model symboly

Využití logistické regrese pro hodnocení omaku

SÍŤOVÁ ANALÝZA. Základní pojmy síťové analýzy. u,. Sjednocením množin { u, u,..., 2. nazýváme grafem G.

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

2. Najděte funkce, které vedou s těmto soustavám normálních rovnic

6 LINEÁRNÍ REGRESNÍ MODELY

Numerická integrace konstitučních vztahů

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

3.2 Metody s latentními proměnnými a klasifikační metody

Transformace dat a počítačově intenzivní metody

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

EKONOMICKO-MATEMATICKÉ METODY

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

REGRESNÍ ANALÝZA. 13. cvičení

Metoda hlavních komponent

Vícekriteriální rozhodování. Typy kritérií

NÁVRH A OVĚŘENÍ BETONOVÉ OPŘENÉ PILOTY ZATÍŽENÉ V HLAVĚ KOMBINACÍ SIL

Náhodným (stochastickým) procesem nazveme zobrazení, které každé hodnotě náhodnou veličinu X ( t)

Markovovy řetězce se spojitým časem CTMC (Continuous time Markov Chain)

Statistická energetická analýza (SEA)

definovat pojmy: PI člen, vnější a vnitřní omezení, přenos PI členu popsat činnost PI regulátoru samostatně změřit zadanou úlohu

Metody s latentními proměnnými a klasifikační metody

Směrová kalibrace pětiotvorové kuželové sondy

Národní informační středisko pro podporu jakosti

1. Úvod. Cílem teorie her je popsat situaci, která nás zajímá, jako hru. Klasickým případem

Výstavba regresního modelu regresním tripletem

Cvičení z termomechaniky Cvičení 5.

Třídění a významné hodnoty

Analytická metoda aneb Využití vektorů v geometrii

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

Lineární a adaptivní zpracování dat. 8. Kumulační zvýrazňování signálů v šumu 2

PŘÍSPĚVEK K NEJISTOTÁM VÝSLEDKŮ MĚŘENÍ

Regresní a korelační analýza

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Rovnice paraboly

MODELOVÁNÍ A SIMULACE

1.5.2 Mechanická práce II

Matematika I A ukázkový test 1 pro 2018/2019

Softwarová podpora matematických metod v ekonomice a řízení

Analýza závislosti veličin sledovaných v rámci TBD

ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2

1. Nejkratší cesta v grafu

MANAŽERSKÉ ROZHODOVÁNÍ

APLIKACE MATEMATICKÉHO PROGRAMOVÁNÍ PŘI NÁVRHU STRUKTURY DISTRIBUČNÍHO SYSTÉMU

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

vektor a vrátili jiný vektor. Měli-li jsme jistou pozorovatelnou A, dostali jsme jejím změřením

Téma 6: Indexy a diference

2 ÚVOD DO TEORIE PRAVDĚPODOBNOSTI. 2.1 Náhodný jev. π, které je třeba co nejpřesněji a nejúplněji vymezit, a k nimž je třeba výsledky pokusu a

Agregace vzájemné spojování destabilizovaných částic ve větší celky, případně jejich adheze na povrchu jiných materiálů

VŠB - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky. Diplomová práce Michal Běloch

2.3.6 Práce plynu. Předpoklady: 2305

Úloha č.1: Stanovení Jouleova-Thomsonova koeficientu reálného plynu - statistické zpracování dat

CVIČENÍ Z ELEKTRONIKY

Pokud světlo prochází prostředím, pak v důsledku elektromagnetické interakce s částicemi obsaženými

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

PROBLEMATIKA INTELIGENTNÍHO AUTOMATICKÉHO

7. VÝROBNÍ ČINNOST PODNIKU

Staré mapy TEMAP - elearning

8. STATISTICKÝ SOUBOR SE DVĚMA ARGUMENTY

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Raoultův zákon, podle kterého je při zvolené teplotě T parciální tlak i-té složky nad roztokem

Dynamické programování

Cvičení 13 Vícekriteriální hodnocení variant a vícekriteriální programování

Termodynamika ideálního plynu

4.4 Exploratorní analýza struktury objektů (EDA)

Obr. V1.1: Schéma přenosu výkonu hnacího vozidla.

Energie elektrického pole

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU

1. Spektrální rozklad samoadjungovaných operátorů 1.1. Motivace Vlastní čísla a vlastní vektory symetrické matice 1 1 A = 1 2.

Výpočet svislé únosnosti osamělé piloty

Dopravní plánování a modelování (11 DOPM )

Příklady z přednášek Statistické srovnávání

ρ = 0 (nepřítomnost volných nábojů)

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

Směrnice 1/2011 Statistické vyhodnocování dat, verze 4 Verze 4 je shodná se Směrnicí 1/2011 verze 3, pouze byla rozšířena o robustní analýzu

4EK211 Základy ekonometrie

9 NÁHODNÉ VÝBĚRY A JEJICH ZPRACOVÁNÍ. Čas ke studiu kapitoly: 30 minut. Cíl:

Cyklické kódy. Alena Gollová, TIK Cyklické kódy 1/23

Statistická šetření a zpracování dat.

1. série. Různá čísla < 1 44.

zadání: Je dán stejnosměrný motor s konstantním magnetickým tokem, napájen do kotvy, indukčnost zanedbáme.

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné

DIAGNOSTICKÁ MĚŘENÍ V SOUSTAVĚ MĚNIČ - MOTOR

Dynamika populací. s + W = 1

Stabilita prutu, desky a válce vzpěr (osová síla)

27 Systémy s více vstupy a výstupy

VYHODNOCENÍ MĚŘENÍ (varianta "soulodí")

Podmíněná pravděpodobnost, spolehlivost soustav

4EK211 Základy ekonometrie

ČASOVÁ KOORDINACE SPOJŮ VEŘEJNÉ HROMADNÉ DOPRAVY NA ÚSECÍCH DOPRAVNÍ SÍTĚ

SIMULACE A ŘÍZENÍ PNEUMATICKÉHO SERVOPOHONU POMOCÍ PROGRAMU MATLAB SIMULINK. Petr NOSKIEVIČ Petr JÁNIŠ

Ing. Vladimíra Michalcová, Ph.D. Katedra stavební mechaniky (228)

Rovinný svazek sil. Lze odvodit z obecného prostorového svazku sil vyloučením jedné dimenze. =F i. =F ix. F 2x. e 2. = F 1x. F ix. n Fi sin i.

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Transkript:

MEODA HLAVÍCH KOMPOE A EXPLORAORÍ AALÝZA VÍCEROZMĚRÝCH DA JIŘÍ MILIKÝ, Katedra textlních materálů, echncká unversta v Lberc, Hálkova 6 46 7 Lberec, e- mal: r.mlky@vslb.cz Motto: c není unversální MILA MELOU, Katedra analytcké cheme, Unversta Pardubce, Pardubce Abstrakt: Jsou osány základní logcké ostuy realzace metody hlavních komonent (dále PCA) vycházeící z různých hledsek. Je oednáno o zůsobech ředběžné analýzy dat, vlastní realzac PCA, možnostech vzualzace výstuů a různých zůsobech omezení vlvu vybočuících bodů. Je dskutováno o vhodnost využtí PCA v růzkumové analýze a možných úskalích. ěkteré tyy transformací a škálování dat sou demonstrovány grafcky..úvod Jednou ze základních úloh analytcké cheme e smultánní montorování úrovně různých látek (roměnných) v materálech, ovzduší, vodě a ůdě. Cílem e často zštění, zda dané látky (celkem ) neřekračuí zadané úrovně. Problémem e, že se ednotlvé látky navzáem ovlvňuí a v řadě říadů solu slně souvsí, takže se často šatně samostatně nterretuí. avíc se nformace o koncentracích těchto látek získávaí z různých zdroů (míst), které nesou nezávslé. o vše vede k ožadavku zkoumání struktur v datech a hledání vazeb mez látkam res. zdro. Obyčeně e ožadováno :. alézt kombnace ůvodních roměnných, které lée vysthuí data než ůvodní roměnné a obasnt ech význam. alézt struktury a souvslost v datech, které charakterzuí ednotlvém zdroe a ech možné vazby 3. Identfkovat nevýznamné kombnace složek (snížení dmense roblému a elmnace šumů) a vybočuící zdroe (ndkace res., elmnace atyckých zdroů) aké celá řada dalších úloh z oblast analytcké cheme vede na zracování vícerozměrných výběrů. Podobné roblémy se vyskytuí také v ných oborech, kde se zkoumá chování systémů ovlvněných smultánně řadou souvseících faktorů res. ř konstrukc modelů redkuících vlastnost výrobků z vlastností surovn atd. Vše e komlkováno tím, že se vychází z exermentálních dat, která maí v těchto říadech standardně některé secfcké zvláštnost: (a) rozsahy zracovávaných dat nesou obyčeně velké, (b) v datech se vyskytuí výrazné nelnearty, neadtvty a struktury, které e třeba dentfkovat a osat, (c) rozdělení dat en zřídka odovídá normálnímu běžně ředokládanému ve standardní statstcké analýze, (d) v datech se vyskytuí vybočuící měření a různé heterogenty,

(e) statstcké modely se často tvoří na základě ředběžných nformací z dat (datově orentované řístuy), (f) arametry statstckých modelů maí mnohdy defnovaný fyzkální význam, a musí roto vyhovovat velkostí, znaménkem nebo vzáemným oměrem, (g) exstue stá neurčtost ř výběru modelu, osuícího chování dat. Z hledska oužtí statstckých metod e roto žádoucí mít možnost zkoumat statstcké zvláštnost dat (růzkumová analýza), ověřovat základní ředoklady o datech a hodnott kvaltu výsledků s ohledem na základní schéma [] "data - model - statstcká metoda" oto schéma se ovažue za základ nteraktvní tvorby statstckých modelů všeho druhu. Př eho raktckém oužtí však nastávaí roblémy zeména v říadech, kdy se edná o vícerozměrné úlohy. Jž samotné znázornění dat vyžadue oužtí různých roekcí, které však vzhledem k multkolneartě, nelneartám a dmens roblému nemusí dobře ndkovat nař. tzv. vybočuící hodnoty (body), echž řítomnost může mít katastrofcké důsledky s ohledem na nterretac výsledků a raktcké závěry. Standardně se ro růzkumovou analýzu vícerozměrných dat oužívá metoda hlavních komonent (PCA), která e dnes běžnou součástí raktcky všech rogramových systémů ro vícerozměrná data. o vede ke stavu, že e rutnně využívána tak, ak e narogramována, což může často zůsobt otíže tam, kde e vhodné volt alternatvní cesty. V této rác e oednáno o zůsobech ředběžné analýzy dat, vlastní realzace PCA, možnostech vzualzace výstuů a různých zůsobech nterretace výsledků. Je dskutováno o vhodnost využtí PCA v regresní analýze a možných úskalích. Jednotlvé ostuy a metody sou demonstrovány na datech z textlního oboru.. Metoda PCA Většna metod vícerozměrné analýzy dat vychází z náhrady ůvodních roměnných (látek, faktorů), které sou korelované tzv. hlavním komonentam, které sou árově nekorelované (ortogonální). Hlavní komonenty sou většnou tvořeny lneární kombnací ůvodních roměnných a ř ech konstrukc se obyčeně defnuí další omezení určuící ednoznačně ech olohy. Jedním ze základních ožadavků bývá výběr takových směrů, které vždy vedou k maxmálnímu snžování celkové varablty dat []. U metody PCA e vstuem matce dat X (x) obsahuící hodnoty měření (vzorků) ro ůvodních roměnných. Výstuem e matce Z (x), obsahuící hodnoty měření (vzorků) ro hlavních komonent. Předokládeme nedříve, že matce X e sloucově centrovaná, t. sloucové růměry sou rovny nule (důvod tohoto centrování e uveden v ka.3 ). Matce Z e tvořena slouc hlavních komonent, které sou lneární kombnací slouců matce X, což znamená, že latí Z = X * A () kde A musí být ortogonální matce. Je zřemé, že matce Z e sloucově centrovaná. Z geometrckého hledska tvoří řádky matc Z a X body v rozměrném rostoru (souřadncovém systému) roměnných res.hlavních komonent. Exstue také nverzní transformace, která e vzhledem k ortogonaltě matce A dána vztahem X = Ζ * A () a základě vzáemných lneárních transformací lze určt, že X * X = Z * Z. Z této rovnost, t. nvarance matc skalárních součnů, lyne, že obou souřadncových systémech sou zachovány Eukledovské vzdálenost mez body a velkost úhlů, které svíraí vektory

souící tyto body s očátkem souřadnc. Vzdálenost a úhly defnované matcem skalárních součnů se často souhrnně označuí ako konfgurace. Je tedy atrné, že matce A zůsobue ouze rotac kolem očátku souřadnc. echť e symbolem G označená taková matce A zůsobuící rotac kolem očátku souřadnc, ro kterou sou hlavní komonenty vzáemně nekorelované. S oužtím matce G vede transformace rov. () ke tvaru Z = X * G (3) Slouce matce Z se ak označuí ako skóry hlavních komonent (dále skóry) a řádky defnuí souřadnce bodů vzhledem k tomuto souřadnému systému hlavních os. Protože e matce X X až na násobvou konstantu rovna matc kovaranční matc výběru musí latt, že Z * Z = G * X X * G = L (4) Jak bude ukázáno dále, obsahue matce G ako slouce vlastní vektory a dagonální matce L obsahue vlastní čísla matce X X. Standardně sou vlastní čísla setříděná sestuně t. L + L. Předokládeme, že matce X e tvořena slouc ůvodních roměnných X = ( x,.. x ). Pak lze ro ednotlvé hlavní komonenty t. slouce matce Z = ( z,.. z ) a ůvodní roměnné sát, že z = * x res. x = G (5) G = = yto relace ukazuí na vztah mez ůvodním a novým roměnným. V rostoru roměnných e vektor z součet složkových vektorů G * x. Délka tohoto vektoru e součet roekcí vektorů x do směru dané hlavní osy. Schematcky e kolmá roekce vektoru x na vektor z znázorněna na obr.. x cos = cos = x z ((x x)*(z z)) / (x x) ( ) =k*z Obr. Proekce vektoru x na vektor z z Z obr. e zřemé, že konstanta úměrnost k = ( x z) /( z z). Vektor e roekcí vektoru x na vektor z. Exstue tedy roekční matce Q, ro kterou e = Q * x = k = z * x /( z z) = [ z ( z z)] * x. Matce Q = z /( z z) e ortogonální roekční matce (t, symetrcká a demotentní). Délka vektoru e dána vztahem = = cos * x = x z / z = x * Q * x = k (6a) V kontextu PCA e vektor z vyádřen ako součet defnovaný rov (5) a řísěvek ednoho vektoru x k tomuto součtu e úměrný konstantě k. Př zkoumání vazeb mez vektory z a x umožňue tato analýza lée orozumět geometrckým souvslostem. Je zřemé, že délka vektoru z e dána výrazem z = z = L, kde L e odmocnna z - tého vlastního čísla. o lyne římo z rov. (3). Délka roekce vektoru x na vektor z e dán vztahem (vz. rov (6a))

x = = G * L (6) z V této rovnc bylo využto ortogonalty slouců matce Z t. z k = 0 ro k. Př konstrukc vektoru z se sčítaí složkové vektory vektorů G * x, takže e celková délka vektoru z vyádřtelná vztahem [] = z = L = G * = G * L (7) = Rov. (7) ukazue, že řísěvek každé ůvodní roměnné (v řítomnost ostatních) k délce vektoru z e úměrný čtverc G. Velčna L e úměrná směrodatné odchylce nové roměnné (hlavní komonentě). Zaímavé e také určení vazby mez vektory z a x, kdy ro odovídaící korelační koefcent r latí x G * L r = = (8) x x Ve statstcké termnolog e délka centrovaného vektoru úměrná směrodatné odchylce, rotože x * x = = roměnné. Z rov. (8) a (6) lyne,že x zde odovídá součtu čtverců odchylek hodnot odovídaících -té = G * L = x * r. Pokud e x =, latí že = r. K této stuac dode v říadě, že data sou standardzovaná, t. X X = R e rovna korelační matc. V matcovém vyádření e roekční matce roekcí x-vektorů do z-vektorů ve tvaru P = G*L a korelační matce ve tvaru R = S - *G*L. V některých říadech se ř rekonstrukc matce X využívá ouze omezeného očtu k < těch hlavních komonent, které nevíce řsívaí k snížení celkové varablty dat. Lze ukázat, že latí k = G t. / L k = Proekce vektoru x do k- rozměrného od-rostoru ouze rvních k hlavních komonent leží uvntř hyer-elsodu ehož oloosy sou L. Př konstrukc matce Z se běžně oužívá ouze omezený očet hlavních komonent, takže latí model k = G z e = x * + (0) kde chybový člen e souvsí s hlavním komonentam, které nebyly oužty ř rekonstrukc vektoru x, tedy e = * () G z = k + Délka vektoru e e maxmálně L k+, rotože latí, že G L V rozměrném rostoru měření (vzorků) e rov. (5) nterretovatelná ako lneární regresní model, kde vysvětluící roměnné sou ůvodní roměnné a vysvětlovaná roměnná e hlavní komonenta z. o e alternatvní motvace ro PCA. Je také možné uvažovat každou ůvodní roměnnou ako lneární kombnac všech ortogonálních hlavních komonent z =... Délky těchto složek sou roekce, které oskytuí souřadnce ro x s ohledem na směry hlavních komonent. = k + k +. (9)

Ze statstckého hledska se PCA uvažue ako osná vícerozměrná metoda založená na sektrálním rozkladu kovaranční matce Σ defnovaném vztahem (vz. rov. (3)) Σ = G * L * G () Předokládá se usořádání vlastních čísel odle velkost, takže tému vlastní číslo L = λ e co do velkost na -tém místě a odovídá mu -tý vlastní vektor G, t. -tý slouec matce G. Častým důvodem oužtí PCA e snížení rozměrnost roblému, kdy se místo ůvodních roměnných vybere enom k hlavních komonent odovídaících nevětším vlastním číslům, které obasňuí nevětší odíl varablty v datech. Pro účely růzkumové analýzy se vybíraí dvě nebo tř hlavní komonenty a data se znázorňuí v rostoru těchto hlavních komonent grafcky. o umožňue relatvně snadno odhalt struktury v datech ako sou skuny bodů, solované body atd. Pro osouzení struktur v datech e možné oužít né dvoce res. troce hlavních komonent a cháat PCA ako eden ze zůsobů D res. 3D roekce dat. Standardně se tvoří graf skórů t. slouců matce Z.ento graf e ochotelně slně ovlvněn transformací dat. Základní omezení naznačeného ostuu sočívaí v tom, že:. komonenty které obasňuí malou část varablty dat mohou být z hledska analýzy vícerozměrných dat významné. elze a ror odhadnout, aká část varablty dat e ž nevýznamná 3. Př oužtí ve soení s regresním modely nesouvsí často vůbec varablta vysvětluících roměnných s varabltou obasňovanou regresním modelem. Standardní ostu PCA ro růzkumové účely se dá rozdělt do těchto kroků [4]:. ransformace dat. Rozklad kovaranční res. korelační matce 3. Určení očtu významných hlavních komonent 4. Vzuální zobrazení vícerozměrných dat Standardně se vychází z vícerozměrných výběrů obsahuících měření (x... x ). Vektor x ro té měření obsahue složky (x, x x ). Výsledkem měření e tedy matce dat X řádu x obsahuící řádků (měření) a slouců (látek). Určení očtu významných hlavních komonent e velm kontroverzní úloha, rotože významnost charakterzovaná velkostí vlastních čísel nak nemusí souvset s významností ro os datových struktur. o e dobře atrné nař. v oblast oužtí PCA v regres. Přehled vybraných metod ro určování významných hlavních komonent odává ráce [4]. V říadě, kdy se PCA oužívá ro růzkumovou analýzu se rovádí roekce do dvou res. tří hlavních komonent a není obtížné vyzkoušet různé kombnace. Standardním výstuem PCA e graf skórů (slouců matce Z) ro vybrané dvoce hlavních komonent. ěkdy se tento graf dolňue o vektory roekcí ako řádků matce P = G * L a vznká kombnovaný graf. 3. ransformace dat ransformace dat může mít řadu říčn a důsledků. Obyčeně souvsí se secfkou ednotlvých roměnných a ech rozdělením. Secálním říadem transformace e lneární transformace nazývaná standardzace. Jak ž bylo ukázáno v ka., vychází standardní PCA z sloucově centrovaných dat (kovaranční matce C = X X ). Je však možné oužít také normovaná data vedoucí ke korelační matc R. Rozdíly v těchto dvou standardzacích sou zůsobeny různým vaham

ednotlvých ůvodních roměnných ř tvorbě matc skalárních součnů. Př oužtí kovaranční matce sou slouce matce X t. ůvodní roměnné "váženy" s ohledem na ech délku x, t. úměrně směrodatné odchylce v ůvodních ednotkách. Př oužtí korelační matce sou slouce matce X normovány tak, aby měly ednotkovou délku (nulový růměr a ednotkový roztyl). Váhy všech roměnných sou tedy stené, rotože délka všech roměnných e ednotková. Běžně se uvádí, že ro říad roměnných v různých ednotkách e vhodněší oužtí korelační matce. Bro a Smlde [3] rozebíraí odrobně různé varanty centrování a normování. Obecně latí, že centrování odstraní absolutní člen v modelech a tím sníží očet odhadovaných arametrů a vede k omezení numerckých otíží. Přtom nedochází ke změně struktury konfgurace (en se osune se do očátku souřadnc). ormování se oužívá k odstranění závslost na ednotkách a heteroskedastctě u ůvodních roměnných. ormování ovlvní krtérum odhadu arametrů (vážené nemenší čtverce). a druhou stranu e normování zcela nevhodné ro roměnné, které sou na úrovní šumu (odíl sgnál/šum e velm nízký). Zde dochází k nevítanému zvýraznění významnost. V rác [6] se dooručue oužtí vah /s (s e směrodatná odchylka dané roměnné) ro roměnné s výraznou řevahou sgnálu. Pokud e sgnál a šum na stené úrovn sou dooručeny váhy /(4s) a tam, kde e šumová složka řevládaící se dooručue vyuštění roměnné res. váha /(0s). U roměnných, kde některé hodnoty leží od mezí detekce d se určue odíl sgnál/šum (S/) ze vztahu I( x d) * x S / = d * d kde I(.) e ndkátorová funkce a d e očet hodnot od lmtou detekce d.pokud e S/< e roměnná raktcky šum. Pro 0, <S/< e roměnná málo odlšná od šumu. Praktcky toznamená, že řblžné konstantní hodnoty roměnné ve všech vzorcích ndkuí eí nevhodnost. V řadě říadů sou výchozí data vyádřená ako odíly z celku (nař. relatvní zastouení různých sloučenn a rvků). V celé řadě oblastí (nař. stoové analýze) e běžné oužívat logartmckou transformac dat. ato transformace má obecně některé výhody:. Omezue ůsobení extrémních hodnot. Snžue oztvní zeškmení dat běžné u řady výsledků měření 3. Stablzue nestený roztyl roměnných (heteroskedastctu) o znamená, že logartmcky transformovaná data ž není třeba dále normovat (ostačue sloucové centrování). Pro říad, že rozdělení dat e velm vzdálené od normalty, nebo sou v datech skuny vybočuících bodů dooručue se oužít ořadové transformace (hodnoty se nahradí ech ořadím). Pak lze místo korelačních koefcentů na báz momentů oužít Searmanovy ořadové korelační koefcenty. a základě orovnání těchto transformací se standardzací res. kombnace transformace a standardzace došel Baxter [5] k závěru, že logartmcká transformace a ořadová transformace sou výhodné zeména tam, kde se vyskytuí vybočuící hodnoty. Žádná transformace nevyšla ako otmální ro všechny říady. V chemometrcké lteratuře se vyskytuí eště další secální transformace vhodné ro secální účely [4]. 4. Konstrukce hlavních komonent Jak e atrné z rov. (3) e základem konstrukce hlavních komonent sektrální rozklad

kovaranční res. korelační matce na vlastní čísla a vlastní vektory. Jde o ednu ze základních úloh lneární algebry. S ohledem na řesnost a solehlvost se oužívá římo rozkladu matce X omocí metody SVD (sngular value decomoston). Metoda SVD, rozkládá lbovolnou obdélníkovou matc X (x) na tř matce t. X = U * S * V (3). Obyčeně se rovádí tzv. zkrácená SVD kterou uvažueme v dalším (ro zkrácenou SVD se mění rozměry matc U a S) Pro zkrácenou SVD e matce S (x) dagonální a obsahue na dagonále tzv. sngulární čísla matce X. Pokud má matce X hodnost r (t. obsahue ouze r lneárně nezávslých slouců) e rávě r kladných nenulových sngulárních čísel seřazených dle velkost, t. S S S 33... S rr. Matce U (x) a V (x) sou ortogonální a normované, takže latí U U = E a V V = E, kde E e ednotková matce. Pro zkrácenou SVD latí, že kladná sngulární čísla sou odmocnny z vlastních čísel matce X X ( ale také matce XX ), slouce u matce U sou vlastní vektory matce XX a řádky v matce V sou vlastní vektory matce X X. Platí, že sngulární čísla sou odmocnny z vlastních čísel, tedy S = L a matce V e rovna matc vlastních vektorů G. S využtím SVD lze rov. (3) vyádřt ve tvaru Z = U * S Důležtou vlastností SVD e že matce k ( k ) = u * S v X * e neblžší matce řádu k k matc X ve smyslu nemenších čtverců odchylek. Je tedy mnmalzováno krtérum ( X X. Je tedy atrná úzká souvslost s metodou ( k ) ) nemenších čtverců. Samostatným roblémem souvseícím s rozkladem na vlastní čísla vlastní vektory e ctlvost na vybočuící body. Exstuí v zásadě dvě možnost ak realzovat PCA v řítomnost slně vybočuících bodů. První sočívá v ech dentfkac a odstranění a druhý v oužtí robustních metod. Ukažme s základní roblémy s dentfkací vybočuících bodů. echnky ndkace vybočuících bodů sou ctlvé na tzv. maskování, kdy vybočuící se eví ako korektní (díky zvětšení kovaranční matce) nebo řekryt, kdy řítomnost vybočuících měření zůsobí, že některá srávná měření leží mmo akcetovatelnou oblast.(díky zkreslení kovaranční matce). Schematcky sou tyto stuace znázorněny na obr. (vybočuící body sou tmavé). A. maskování B. řekryt Obr. Příklad maskování (A) a řekrytu (B) Znázornění na obr. vychází z faktu, že čtverce zobecněných vzdáleností maí χ rozdělení (elsa e tedy hranční oblast odděluící dobrá (D) a vybočuící (V) data.

Řada metod ro dentfkac vybočuících bodů fungue en ro některé stuace nebo modely datových struktur. Příkladem sou technky uvažuící ouze edno vybočuící měření (testy založené na odchylkách od růměru atd.) nebo secální metody ro regresní modely. Samostatným roblémem e nterretace vybočuících hodnot. Exstuí dvě mezní stuace: A. Vybočuící měření e chybné. o e třeba. říad, kdy vznkne chyba ř měření, res. zracování dat (nař. místo 0.74 e oužta hodnota 74). B. Vybočuící měření e srávné. o e říad, kdy byl oužt nesrávný ředoklad o rozdělení dat (nař. normalta ro říad, že reálné rozdělení e slně zeškmené) nebo de o tzv. řídké evy (které se u malých výběrů mohou evt ako vybočuící). V realtě nelze často rozhodnout, o který říad se vlastně edná. Problém e také v tom, co s vybočuícím hodnotam dělat. Přímá možnost, t. ech odstranění e nebezečná ze dvou důvodů: a) data se uravuí tak, aby vyhovovala ředokládanému modelu a nelze tedy dobře osoudt eho vhodnost, b) varablta dat vyde extrémně nízká, což se může negatvně roevt ř orovnání s novým daty, res. nformacem Jednotný ostu zde neexstue a záleží na exermentátorov, res. zracovatel akou varantu zvolí.vzhledem k tomu, že vybočuící body sou většnou extrémně vlvné vede zde nevhodná manulace ke ztrátě nformací a nesrávným závěrům. Předokládeme ro ednoduchost, že data maí rozměrné normální rozdělení ( μ, Σ ), kde μ e vektor středních hodnot a Σ e kovaranční matce. Vybočuící měření leží v oblast out( μ, Σ ) = ( x R : ( x μ) Σ ( x μ) > χ ) ato oblast okrývá celý rostor E s vyloučením vícerozměrného elsodu kolem vektoru středních hodnot. Vybočuící body sou tedy řílš vzdáleně od střední hodnoty. Oblast vybočuících bodů OR ro výběr velkost e určena výrazem OR(,, x) = ( x R : ( x x A ) C ( x x A ) > c(,, )) kde = ( ) ro = 0.05, 0.. Vše co leží v OR e vybočuící. Oblast vybočuících bodů úzce souvsí se zobecněnou (Mahalanobsovou) vzdáleností res. ech čtvercem d = ( x x A ) C ( x x A ) Jako vybočuící se ak dentfkuí ty body, ro které e d > c(,, ) Pro říad vícerozměrného normálního rozdělení a velké výběry e c(,, ) dáno kvantlem chí kvadrát rozdělení c(,, ) = χ ( / ) Pro malé výběry e lée oužít modfkovaný koefcent * ( ) * F, ( / ) c(,, ) = * ( n + * F, ( / )) Aby bylo možno oužít zobecněné vzdálenost ro dentfkac vlvných bodů, e třeba určt čsté odhady x A a C. Pro robustní odhad kovaranční matce se často volí []: - M odhady - S odhady mnmalzuící det C s omezením - Odhady mnmalzuící obem konfdenčního elsodu

Př růzkumové analýze se vlastně očekává, že vybočuící body budou výrazné na grafech, ale zkreslení hlavních komonent ako souřadncového systému e nežádané. Pokud získáme čsté odhady zeména kovaranční matce lze římo sestavt nezkreslené hlavní komonenty a ak sou vybočuící body lée dentfkovatelné na grafech. Je tedy atrné, že robustní metody úzce souvsí s dentfkací vlvných bodů. Z celé řady robustních metod navržených ro PCA sou často oužívané technky, kdy se hledaí hlavní komonenty maxmalzuící robustní odhad roztýlení dat. Příkladem e ostu robpca [7] res. RAPCA. Jednoduché sou metody stanovení čsté odmnožny dat složený z těchto kroků:.výběr základní odmnožny bud na základě - Mahalanobsovy vzdálenost a uřezání odezřelých dat - Vzdálenost od medánu Výsledkem e odmnožna čstých dat s arametry x Ac C c. Výočet rezduí d = ( x x ) C ( x x ) A C C 3. dolnění čsté odmnožny o body s rezduem menším než A C c χ, kde * c = max(0,( h r) /( h + r)) ; h = ( n + +) / c = + ( + ) /( n ) + /( n 3) c = c +c 4. Skončení rocesu v okamžku, kdy se ž nc neřdává an neubírá Poměrně ednoduchá e metoda využívaící kombnace dentfkace otencálně vybočuících bodů a uřezaných odhadů. V té terac se určí uřezané odhady x RC a C C, kde se uřezává defnované rocento ( obyčeně 30%) bodů s nevyšším zobecněným vzdálenostm z vektoru d - vyočítaného v - té terac. Z takto získaných odhadů se vyočte vektor oravených zobecněných vzdáleností d a řechází se na + ní terac. Proces e ukončen, když se ve dvou následuících teracích nemění odhady arametrů x RC a C C. Po získání fnálních odhadů ž ostačue oužít klasckou PCA na matc C C. 5. Program PCA Program PCA v azyce MALAB byl sestaven tak aby umožnl různé tyy transformace dat, standardzace a říadně robustní odhad hlavních komonent. Vychází se z SVD metody. Program obsahue tyto základní volby:. y transformace ( bez transformace, logartmcká transformace a ořadová transformace). y škálování (sloucové centrování, vážení omocí směrodatných odchylek, a normování) 3. Druh odhadu hlavních komonent (standardní metoda a robustní RAPCA) Grafckým výstuem e ředevším kombnovaný graf skórů a roekcí. Pro lustrac rogramu sou na obr -4 ukázány kombnované grafy ro různé tyy voleb. Byl zvolen říklad z oblast orovnání 8 vlastností bavlněných vláken. Data sou osána v rác [8].

A B C D E F Obr. Vlv volby transformace a metody odhadu korelační matce na kombnované grafy A (centrovaná data, klascká metoda), B(centrovaná data robustní metoda), C(centrovaná data, logartmy, klascká metoda), D (centrovaná data, ořadová transformace, klascká metoda), E (ako A ale normovaná data), F (ako D ale normovaná data)

8. Závěr Je atrné, že metoda PCA má celou řadu secfckých zvláštností. V řadě říadů e třeba ve zdánlvě ednoduchých stuacích oužívat oměrně secální ostuy. Formální aarát PCA res. transformace dat bez hlubšího rozboru zde může vést ke zkresleným nformacím. Poděkování: ato ráce vznkla s odorou výzkumného centra extl L00B090 a grantu B/739-3. 9. Lteratura [] Meloun M., Mltký J.: Zracování exermentálních dat, East Publshng Praha 998 [] Arnold A., Collns A., J.: Al. Statst. 4,38, (993) [3] Bro R., Smlde A, K.: J. Chemometrcs 7,6 (003) [4] Johnson G.W., Ehlch R.: Envronmental Forensc 3,59 (00) [5] Baxter M.,J.: Al. Statst.. 44, 53 (995) [6] Paatero P., Hoke P. K.: Analytca Chmca Acta -3 (003) v tsku [7] Smolnsk A., Walczak B., Enax J., V.: Chemoshere 49, 33, (00) [8] El Mogahzy E., Broughton R.M.: ext.res.j.59, 440 (989)