Červeně označené slide jsou jen pro doplnění informací a nezkouší se. sloupce Analýza hlavních komponent - PCA řadky Jiří Militky Analýza experimentálních dat IV
Metoda PCA Cílem analýzy hlavních komponent je především zjednodušení popisu skupiny vzájemně lineárně závislých, tedy korelovaných znaků. echniku lze popsat jako metodu lineární transformace původních znaků na nové, nekorelované proměnné, nazvané hlavní komponenty. Každá hlavní komponenta představuje lineární kombinací původních znaků. Základní charakteristikou každé hlavní komponenty je její míra variability tj. rozptyl. Hlavní komponenty jsou seřazeny dle důležitosti tj. dle klesajícího rozptylu, od největšího k nejmenšímu
1 Využití PCA Redukce počtu znaků bez velké ztráty informace, esty vícerozměrné normality. Průzkumová analýza vícerozměrných dat. Snížení rozměrnosti pro konstrukci ukazatelů jako lineárních kombinací původních znaků. Míra jakosti - první hlavní komponenta (pokud původní znaky charakterizují její složky). Zobrazení vícerozměrných dat - projekce do roviny Jsou zachovány vzdálenosti a úhly mezi jednotlivými objekty. Regrese s využitím hlavních komponent umožňuje odstranění problémů s multikolinearitou a přebytečným počtem vysvětlujících proměnných.
Podstata PCA Základním cílem PCA je transformace původních znaků x i, j = 1,..., m, do menšího počtu latentních proměnných y j (hlavních komponent). yto latentní proměnné mají vhodnější vlastnosti: je jich výrazně méně, vystihují téměř celou proměnlivost původních znaků jsou vzájemně nekorelované. Jde o lineární kombinace původních proměnných: první hlavní komponenta y 1 popisuje největší část rozptylu původních dat, druhá hlavní komponenta y popisuje největší část rozptylu neobsaženého v y 1. Je kolmá na první třetí hlavní komponenta y 3 popisuje největší část rozptylu neobsaženého v y 1 a y. Je kolmá na první i druhou hlavní komponentu atd.
Zadání PCA var. 3 var. var. 1
Centrování var. 3 var. 3 průměr var. var. var. 1 var. 1
Elementární úvod I Jak nahradit n-tici m-rozměrných dat {x 1,.., x n } jedním vektorem x 0? Kritérium pro x 0 může být kvadratická odchylka J n 0( x0) = x0 xk. k = 1 Z nulity první derivace dle x 0 vyjde jako optimální vektor průměrů n 1 x = m = x n 0 k k=1 o je nula-rozměrná náhrada dat. Jedno- rozměrná náhrada dat je projekce dat na přímku procházející bodem průměru dat a vystihující maximum variability
Elementární úvod II Označme jednotkový vektor ve směru této přímky jako e. Rovnice přímky je pak Pro nalezení optimálních Z podmínky je je třeba minimalizovat funkci J1( a1,..., a, e) = m+ a e x J / 0 1 a k = a k x = m + ae n n k k k = 1 a k k = e ( x m) Řešení metodou nejmenších čtverců je: projekce the vektoru x k na přímku ve směru e, která prochází bodem průměru dat. dimense přímky je rovna 1
První PC var. 3 t i1 PC 1 (t 1 p 1 ) var. Skóre hodnota (t i1 ) pro bod (i) je vzdálenost projekce tohoto bodu na první hlavní komponentu od počátku. (i) var. 1 PC 1 je první latentní proměnná v novém souřadnicovém systému.
Elementární úvod II 1 a k Po dosazení za do J 1 n n n k k k k k= 1 k= 1 k= 1 J ( e) = a e a e ( x m) + x m n n n n n ak ak xk m [ e ( xk m)] xk m k= 1 k= 1 k= 1 k= 1 k= 1 = + = + n n k k k k= 1 k= 1 = e ( x m)( x m) e+ x m = e Se + x m n k = 1 k n S= ( x m)( x m). Rozptylová matice S je (n-1) násobek výběrové kovarianční matice k = 1 k k
Elementární úvod III Vektor e minimalizující J 1 tedy maximalizuje omezením e = 1. Nechť je Lagrangeův multiplikátor λ u = ese λee Differenciace podle e: u / e = Se λe Se = λe e Se = λ e Se Z nulity této derivace vyjde, že e je vlastní vektor matice S, protože dimense roviny je rovna s
Druhá PC var. 3 PC 1 Druhá hlavní komponenta (PC ) je kolmá na první hlavní komponentu PC t i1 t i var. Skóre hodnota (t i ) pro bod (i) je vzdálenost projekce tohoto bodu na druhou hlavní komponentu od počátku. (i) var. 1
Zátěže var. Zátěže (p) vyjadřují vliv původních znaků na hlavní komponenty PC (podobnost směrů). Jsou vyjádřeny jako kosíny úhlů mezi původními znaky a jednotlivými hlavními komponentami. θ PC 1 p = cos θ p i = 1 (i) t i1 θ 1 var. 1
Elementární úvod IV Var X PC PC 1 Rozšíření na d rozměrnou projekci: ' d ' = + i i kde i= 1 n x m ae d m Kriteriální podmínka: J d ' ' d = + i m a e x k= 1 i= 1 k i k e,e,...,e je minimalizována, pokud jsou vektory 1 d ' vlastními vektory matice S odpovídající maximálním vlastním číslům. i Hlavní komponenty jsou = e ( x -m) a k i k Data ransformace do hlavních komponent se nazývá také Karhunen-Loeveova nebo Hotellingova transformace Var X 1
Chyba aproximace Pokud je d J ' d ' < = m n k = 1 i= d + 1 m i= d + 1 ' m vzniká zanedbáním nevýznamných členů chyba: ' a i k e n i ( k )( k ) i k = 1 m m eise i i ' ' i= d + 1 i= d + 1 i = e x m x m e = = λ Jde o součet nejmenších vlastních čísel
PCA jako maximalizační úloha Hledání směrů maximální proměnlivosti : Projekce dat do vhodných směrů ( ) ( ) ( ) P x x = x x u u u i i
První hlavní komponenta I Lineární kombinace vstupních znaků, která má největší rozptyl y 1 m v1j xcj j = 1 = = kde sloupcový vektor původních znaků x C obsahuje původní znaky v odchylkách od středních hodnot (centrované hodnoty). x D ( y1) = D ( v1 xc) = E [( v1 xc) ( v1 xc) ] = Rozptyl: v1 E ( xc xc ) v1 = v1 C v1 Vektor koeficientů je v 1 a C je kovarianční matice. 1 v x = ( x - µ, x - µ,..., x - µ ) C 1 1 m m C
První hlavní komponenta II Požaduje se maximalizace rozptylu D( y1) při omezení na velikosti v 1. tj. v 1 v 1 = 1. Maximalizuje se funkce m m m 1 1 C 1 l 1 1 1 v1i Cij v1j l 1 v1i i=1 j=1 i=1 G = v v - ( v v - 1) = - ( - 1) kde l 1 je Lagrangeův multiplikátor. Pro vektor v 1 maximalizující G 1 pak platí podmínka 1 G v 1 = Cv - l v = [ C- l E] v = 0 1 1 1 1 1 Protože v 1 je nenulové, má platit, že (C - l 1 E) musí být singulární, což znamená, že det ( C - l v ) = 0 ento determinant je obecně vzhledem k proměnné l 1 polynomem m-tého stupně s kořeny λ 1 = > λ =>... λ m. 1 1
První hlavní komponenta III Po úpravě vyjde: [ C - l E ] v = 0, v [ C - l E ] v = 0 1 1 1 1 1 tedy v Cv = l v v = l = D( y ) 1 1 1 1 1 1 1 Rozptyl první hlavní komponenty je tedy roven l 1 a bude maximální při volbě l 1 = λ 1, tj. největšímu kořenu polynomu det ( C - l v ) = 0 1 1 Vektor v 1 je pak normalizované řešení pro v = 1 1 v1 Ze spektrálního rozkladu matice C ve tvaru 1 1 1 plyne, že v 1 je vlastní vektor, odpovídající vlastnímu číslu λ 1. v Cv = λ Obecně platí, že vlastní vektor y odpovídající největšímu vlastnímu číslu pozitivně semidefinitní symetrické matice A je řešením optimalizační úlohy max y Ay při y = 1
První PC PC1= y 1 objasňuje maximum variability původních dat Celkový průměr
Druhá hlavní komponenta y Druhá hlavní komponenta j Cj C j = 1 je lineární kombinace vstupních znaků, kolmá na první hlavní komponentu: tj. v1 v = 0 Maximalizuje rozptyl D( y) = VC V za těchto omezujících podmínek v v = 1 a v1 v = 0 Funkce, která se má maximalizovat má tvar m = v x = v x G = C - l ( - 1) - l C v v v v c1v v1 Poslední člen vznikl z podmínky ortogonality hlavních komponent l a l C1 jsou Lagrangeovy multiplikátory. Derivací podle V pak rezultuje po úpravách det(c - l E) = 0. edy l = λ je druhé nejvyšší vlastní číslo a v je odpovídající vlastní vektor.
Druhá PC PC = y obsahuje maximum variability nezahrnuté v y 1. y 1 je ortogonální k y Celkový průměr
Obecná hlavní komponenta V j-tém kroku je třeba maximalizovat rozptyl při omezující podmínce v j v j = 1 C a celkem j-1 podmínkách ortogonality vi vj = 0 j c c i λivv j i V je (m x m) ortogonální matice Λ je (m xm) diagonální matice D( y ) = j j v Cv det( - l j E) v j = 0 E( v xx v) = = 0 pro i = 1,..., j - 1 j Podobně jako u předchozích hlavních komponent je l j = λ j (roven nejvyššímu zbylému kořenu) a v j je odpovídající vlastní vektor. Řešení s využitím metody Lagrangeových multiplikátorů vede ke zjištění, že vektor v j je vlastní vektor kovarianční matice C, kterému odpovídá j-té největší vlastní číslo λ j. Využívá se tedy známého rozkladu C = VΛ V
Variabilita y.. PC, V.. faktorové zátěže y= Vx c Rozptyl D(y j ) = λ j je roven j-tému vlastnímu číslu. Celkový rozptyl m všech hlavních komponent je roven tr C = λ kde tr (.) označuje stopu matice. Podíl variability, objasněný j-tou hlavní komponentou y j je pak λ j P j = m λ Kovariance mezi j-tou hlavní komponentou a vektorem znaků x C jsou rovny cov ( x, y ) = cov ( x, x ) = E ( ) v = Cv = λ v i=1 C j C v j C xx C C j j j j j i=1 j
Korelace Pro korelační koeficient r(x C, y j ) platí, že λ j ji r( xc, y j ) = = σx λj i v Je zřejmé, že pokud se místo centrovaných znaků x C použijí standardizované znaky nazývané také normované či normalizované znaky a označované vyjde korelační koeficient roven x N λ j σ x - µ x - µ x - µ =,,..., σx1 σx σxm x i v 1 1 m m cov ( x, y ) = r(, y ) = v λ * * N j xn j ji j V ji * a λ j * odpovídají rozkladu korelační matice R. Náhrada kovarianční matice C maticí korelační R zjednodušuje interpretaci a odstraňuje závislost na jednotkách měření. ji
Varianty PCA
PCA a vybočující body
Vztahy mezi dvěma proměnnými lineární regrese nelineární regrese hlavní komponenty hlavní křivky
Postup PCA pro ordinaci Ordinace: vhodná D projekce vícerozměrných dat 1 3 4 C1 C C3 C4 C5 C6 Podobnosti Korelace 6 6 korelace 5 Průmět dat do nových os (vlastní vektory) Výpočet vlastních vektorů s největšími vlastními čísly: Lineární kombinace Ortogonalita
Dva znaky I Dva znaky x 1 a x s kovarianční maticí C a korelační maticí R σ 1 C1 1 r C = R = C1 σ r 1 PCA pro korelační maticí Podmínka pro výpočet vlastních čísel Po úpravě (1 - l) - r = 0. 1 - l r det ( R - l E ) = det = 0 r 1 - l l - l + 1- r = 0
Dva znaky II Řešení kvadratické rovnice l - * l + 1- r [ ] + 4-4 ( 1- r ) =1 r 1 = λ = 0.5 + l 1 = 0 = = 0.5 [ ] - 4-4 ( 1- r ) =1 r l λ Vlastní vektory jsou řešením homogenní soustavy rovnic ( R - λ E ) v = 0, i = 1, i i
Dva znaky III Normalizovaný vlastní vektor v 1 * má tvar Normalizovaný vlastní vektor v * má tvar v * 1 = -1/ r + ( 1-1) λ r = λ - 1 1 r + ( 1 1-1) λ 1 v -r 1 + (1 - r - 1) - r = = r + (1 - r - 1) 1 (1 - r - 1) * -1/
Dva znaky IV První PC Druhá PC 1 y1 = ( z + ) 1 z = ( x - E( x )) / D( x ) Aplikace normalizovaných znaků vede k nezávislosti PC na korelaci v původních datech. Dochází k pootočení systému souřadnic na úhly 45 o. y = ( 1 = ( z - ) z1 - E( )) / z1 1 1 1 z x x x ) cosα = 1/ D(
Definice skórů Prvky vlastních vektorů představují směrové kosíny nového souřadnicového systému hlavních komponent vzhledem k souřadnicovému systému původních znaků. Pro rozlišení mezi transformovanými znaky a transformovanými objekty se používá označení hlavní komponenty pro transformované znaky a skóry hlavních komponent (komponentní skóry) pro transformované objekty. Jsou-li k dispozici hodnoty m znaků pro nějaký i-tý objekt x i = (x i1,..., x im ) a známe-li vektor středních hodnot μ = (μ 1,..., μ m) a vlastní vektory v j, j = 1,..., m, je možné určit složky komponentních skórů objektů t i = (t 1i,..., t mi ) ze vztahu t i i i = v ( x - μ )
Výpočet skórů I t t Pro dvojrozměrný případ x 1 a x využijme normovaných znaků z 1 a z pro výpočet komponentních skórů pro objekty O 1 = (1, 1), O = (0, 1), O 3 = (1, 0), O 4 = (0.5, 1). 1 1 1-1 V = ( v1 v) = a μ 1 1 z = 0 jsou komponentní skóry 1 1 1 1 = VO= = -1 1 1 0 1 1 1 0 1/ = = -1 1 1 t 1/ 4 t 3 1 1 1 1 1/ = = -1 1 0-1/ 1 1 1 0.5 3/( ) = = -1 1 1 1/( )
t Výpočet 0.7 t 4 skórů II 0.7 t 1 Ke stejným výsledkům vede dosazení do vztahů pro hlavní komponenty 1 1 = ( z1+ z ), y= ( z - z ) a za z 1 a z souřadnic objektů O 1,..., O 4. Například pro objekt O 4 je y1 1 1 3 y14 = t14 = (0.5 + 1) = 1 1 y4 = t4 = (1-0.5)= Komponentními skóry objektů se také často označují hlavní osy. V případě n objektů tvoří jednotlivé komponentní skóry t i řádky matice t1 =... t n t 3 matice komponentních skórů
Populační PCA Vektor znaků x c = (x 1 - μ 1,..., x m - μ m ) je tvořen m-ticí náhodných proměnných s vícerozměrným normálním rozdělením N(0, C). Pro definici vektoru populačních hlavních komponent lze použít obecné definice y = W x Váhová matice W rozměru (m xm) souvisí s různými normalizačními podmínkami, týkajícími se rozptylu hlavních komponent a je ve tvaru W = C VM V (m x m) obsahuje ve sloupcích vlastní vektory matice C a M je diagonální matice řádu m
Normalizace Pro všechny normalizace má vektor hlavních komponent vícerozměrné normální rozdělení N(0, W C C W C ), lišící se kovarianční maticí D(y). I. Standardní normalizační podmínka D(y I ) = Λ k vede k volbě M = E, tj. jednotkové matici a W I = V. ato volba M zajišťuje, aby zůstala zachována Eukleidovská vzdálenost, protože y I y I = x C x C. Navíc platí, že E(y I ) = 0. II. Jednotková normalizační podmínka D(y II ) = E (tj. rozptyly hlavních komponent jsou jednotkové) vede k volbě M = Λ -1/ a W = V Λ -1/. ato volba normalizace zajišťuje zachování Mahalanobisovy vzdálenosti, protože -1 y y = x II II CC x III. Je možné také použít normalizační podmínku typu D(y III ) = Λ, pro kterou je M = Λ 1/ a tedy W = VΛ 1/. Pro tento případ platí, že y y x III = xc III C C C
Aproximace PCA Místo matice V se použije matice V k rozměru (m x k), obsahující ve sloupcích pouze k vlastních vektorů a místo matice Λ se použije Λ k. Po extrakci k hlavních komponent z kovarianční matice C zbývá ještě reziduální (zbytková) kovarianční matice C = C - V Λ V R k k K y = ( V k Mk) xc Obecně platí, že Vzhledem k ortogonalitě sloupců matice V k resp. diagonalitě matice M k je pak -1-1 xˆ C = Vk Mk y = Vk Mk Mk Vk xc = Vk Vk xc Vektor xc ˆ vlastně odpovídá predikci z lineárního regresního modelu.
Lineární regrese I Optimální rekonstrukce x = μ + f( V) + ε ε je možno chápat jako chybu rekonstrukce. Je zřejmé, že f( V) = Vk V. Za předpokladu, že ε má normální rozdělení s kovarianční maticí D(ε) = σ E m a nulovým vektorem středních hodnot E(ε) = 0, lze pro odhad matice V použít kritérium MNČ S( V) = E x - f( V) = E x - V y = C k I E [( xc - Vk Vk xc) ( xc - Vk Vk xc)] kritérium MNČ: tr(.) je stopa matice S( V) = tr ( C) - tr ( Vk C Vk) tr ( V C ) = tr (D( y )) k Vk I = tr (D( xˆ C)) = k i=1 λ i k x
Lineární regrese II Minimalizace střední chyby rekonstrukce vektoru x C vede k požadavku maximalizace rozptylů hlavních komponent, resp. maximalizaci rozptylů predikce. Na úlohu PCA lze tedy nahlížet jako na problém maximalizace rozptylů hlavních komponent (klasický přístup) nebo minimalizace vzdáleností mezi x a lineárním regresním modelem (lineární regrese). Podmínka minimální vzdálenosti se také týká minimalizace délek projekcí x na hlavní komponenty y (minimalizace Eukleidovských vzdáleností). Podmínka, že D(ε) = σ E m (tzv. izotropní případ) implikuje, že kovarianční matice C má tvar C = Vk Vk + σ E
Lineární regrese III Pro kovarianční matici D(ε) = E(ε ε ) = C ε vede úloha rekonstrukce ˆx C k minimalizaci vážených nejmenších čtverců -1 S( V) = E [( xc - xˆc) Cε ( xc - xˆc)] o je běžné ve faktorové analýze. Má-li náhodný vektor x C normální rozdělení, tj. x c ~ N(0, C) je i podmíněné rozdělení p(x*/ y II ) normální ve tvaru -m/ 1 p ( xc y II) = ( π σ ) exp - ( xc - Vk yii) ( xc - Vk yii) σ Rozdělení vektoru hlavních komponent je také normální y II ~ N(0, E). yto pravděpodobnostní úvahy naznačují, že odhady získané metodou nejmenších čtverců resp. vážených nejmenších čtverců jsou zároveň maximálně věrohodné odhady (pravděpodobnostní PCA).
Lineární regrese III e = xc - xˆ C = xc - Vk Vk xc = xc ( E - Vk Vk) Vektor reziduí Matice ( - ) E Vk V = V V Pro reziduální součet čtverců platí H k k k takže C k C k je idempotentní, protože odpovídá projekci vektoru x c do prostoru, který je ortogonálním doplňkem podprostoru k hlavních komponent. Projekční matice do podprostoru k hlavních komponent je pak ˆx = H x RSC = ( x - xˆ ( x - xˆ ) = x ( E - V V ) x C C) C C C k k C Pokud se pracuje s výběrovou matici X C je RSC (při náhradě vektoru x C i-tým řádkem matice X C ) reziduální součet čtverců pouze pro i-tý objekt.
Lineární regrese IV Kromě RSC je možné použít jako míru neadekvátnosti popisu dat pomocí prvních k hlavních komponent součet čtverců posledních (m - k) hlavních komponent. edy pro případ jednotkové normalizační podmínky D(y II ) = E k je mírou neadekvátnosti rovna NE m k 1 yiii xc C x C yiii i= k+ 1 i= 1 = = Lze ukázat, že míra NE má χ (m-k) rozdělení s m-k stupni volnosti. Platí pro populační hlavní komponenty, kdy jsou složky vektoru x C náhodné veličiny a jsou známy jak střední hodnoty μ j, j = 1,..., m, tak i kovarianční matice C.
Výběrová PCA Chování náhodného vektoru se posuzuje na základě výběru velikosti n tj. matice X (n x m), obsahující pro n objektů hodnoty m znaků. ato situace je běžná také při nepravděpodobnostním přístupu, kdy objekty netvoří náhodný výběr. V obou případech se pak pracuje s průměry, j = 1,..., m, a výběrovou kovarianční maticí S. x j Vlastní vektory a vlastní čísla z rozkladu S = VΛV jsou odhady. Výhodou je, že při náhradě x c ve výše uvedených vztazích i-tým řádkem matic X (tj. i-tým objektem) a převedení na sloupcový vektor, je možné snadno určit skóry hlavních komponent a další charakteristiky pro každý objekt zvlášť. Je možné také určit skóry hlavních komponent pro výběrový průměr a provést jeho rekonstrukci z menšího počtu hlavních komponent.
PC a řízení jakosti I Značnou výhodou je využití výpočtu skórů hlavních komponent pro jednotlivé objekty při řízení jakosti s využitím Hotellingových vzdáleností. Pro i-tý objekt je vzdálenost od střední hodnoty (tj. požadovaného stavu) rovna = y y i II,i II,i kde y II,i je i-tý vektor prvních k hlavních komponent pro i-tý objekt. Zobecněná Mahalanobisova vzdálenost výběru od střední hodnoty n je pak d = 0 i=1 ato veličina má χ nk rozdělení s n k stupni volnosti. Pro výběrový průměr x jsou hlavní komponenty i y P = W x
PC a řízení jakosti II Jde o lineární transformaci, takže Vzdálenost d = n y y P P P y P n = yi / n i=1 je pak zobecněnou vzdáleností mezi výběrovým průměrem a populační střední hodnotou. ato veličina má χ k rozdělení s k stupni volnosti. Míra variability výběru kolem výběrového průměru je pak d v = d 0 - d P a má χ (n-1)k rozdělení s (n - 1)k stupni volnosti. Rozdělení vzdáleností d je založeno na předpokladu normality a náhodného výběru. Vzdálenosti d v a d P jsou vícerozměrné analogie pro regulační diagramy x a s.
Scores plot Redukované skóry PC 4 3 1 0-1 - Acute Chronic Skóry = X V (n x m) = (n x m)*(m x m) Hodnoty PC pro všechny objekty Rekonstrukce dat snížení rozměrnosti Snížení počtu komponent: Výběr významných komponent (p) Nahrazení matice zátěží V (m x m) redukovanou maticí zátěží V f (m x p) Výpočet redukovaných skórů c -3-6 -4-0 4 6 = X c PC 1 = XV f c f V
Redukce počtu PC I Procento variability objasněné j-tou hlavní komponentou P j = λ j m λ j i=1 100 Graf úpatí uspořádaná vlastní čísla λ 1 => λ =>... λ m. Je vidět rozdíl mezi důležitými a nevýznamnými PC Často postačuje pouze malý počet hlavních komponent k objasnění prakticky celé variability dat
Redukce počtu PC II Výběr prvních několik hlavních komponent k jako představitele m-tice původních znaků: (1) Výběr pouze k-tice komponent, které objasňují zadané procento P variability původních znaků. Obyčejně se volí P = 70 až 90%. () Vyloučení těch komponent, kterým odpovídají vlastní čísla m m menší než průměrná hodnota λ i /m λi = tr ( S) i=1 i=1 Pokud se provádí PCA pro korelační matici R, je tr (R) = m a průměrná hodnota je rovna jedné. o vede k jednoduchému pravidlu vyloučit hlavní komponenty, pro které jsou vlastní vektory menší než 1. Lépe je vypouštět komponenty, pro které jsou vlastní čísla menší než 0.7.
3.5 Scree Plot Redukce 3.0.5.0 1.5 počtu PC III Eigenvalue 1.0.5 0.0 1 3 4 5 6 7 8 9 10 11 1 Component Number Použití redukovaných zátěží vede k diferenci mezi původní a rekonstruovanou maticí dat. Centrovaná matice X C se rozkládá na matici signálu obsahující součin skórů (n x k) a zátěží V k (k x m) a chybovou maticí O (n x m). X C = V + O k
S( µ, y, V ) = I k (xi - µ - Vk yii ) (xi - µ - Vk yii) Bilineární regresní model Model X C = V k + O má jako parametry skóry, a vlastní vektory V k. X Cr Účelem je minimalizace délky O nebo vzdálenosti dist (X C - V k ). Výsledek je stejný jako maximalizace rozptylu. Matice reziduí n i=1 = V = X V V k C k k r = c cr = c = c ( f k k ) k O X X X V X E V V
Redukce počtu proměnných I Pro kontrolu toho, jaké změny způsobí vynechání některých znaků se s výhodou používá matic komponentních skórů (m) rozměru (n x m) pro všech m znaků a komponentních skórů (q) rozměru (nxq) pro vybranou podmnožinu q znaků. Podobnost mezi konfigurací (m) a (q) se posuzuje na základě Prokrustovy analýzy M = tr (m) (m) + (q) (q) + Z kde Z je matice singulárních hodnot SVD rozkladu matice (q) (m), tj. (q) (m) = UZV kde U U = E, V V = V V = E a Z je diagonální matice. Čím je M menší, tím je konfigurace (m) bližší konfiguraci (q). Zkoumání všech možných kombinací všech podmnožin m znaků je velmi náročné.
Redukce počtu proměnných II echnika zpětné eliminace: 1. V prvním kroku se eliminuje ten znak, který má nejmenší M pro všechna q = m - 1., Ve druhém kroku se dosadí za (m) matice (m-1) a zase se eliminuje znak, kterému odpovídá nejmenší M. ímto postupem se vlastně v každém kroku posuzují konfigurace, lišící se pouze přítomností jednoho znaku. Při praktických výpočtech lze využít efektivního algoritmu SVD pro případ vypouštění jednotlivých znaků. Znaky s nízkou variabilitou respektive malou hodnotou poměru signál/šum jsou parazitní. Při použití škálování, tj. práci s korelační maticí pak tyto proměnné uměle získávají na významu. o znamená, že při výpočtu je třeba vycházet z kovarianční matice S.
PCA a SVD I Z pohledu lineární algebry je výhodné použít SVD (metoda singular value decomposition) původní centrované matice X C. Je známo, že SVD matice X C je vyjádřená rovnicí XC = U DV Jde tedy o rozklad matice X c na ortogonální matici U řádu (n x m), ortogonální matici V rozměru (m x m) a diagonální matici D řádu (m x m), jejíž diagonální prvky d 1 => d =>... =>d m se označují jako singulární hodnoty. Vzhledem k ortogonalitě sloupců matic U a V platí, že U U = V V = E. Matice U obsahuje jako sloupce levé singulární vektory U j a matice V obsahuje jako sloupce pravé singulární vektory V j. yto vektory jsou vzájemně ortogonální, jednotkové a definují speciální báze prostoru pro znázornění objektů (U), resp. znaků (V).
PCA a SVD II Významnou vlastností SVD je možnost rekonstrukce matice X c k pomocí matice ˆX nižší hodnosti k, Xˆ C = d Ui i Vi i=1 Analogicky jako u hlavních komponent se tedy rozkládá matice ˆXC na součet matic U i d i V i hodnosti 1. Platí, že ˆXC je matice hodnosti k, která je nejblíže k matici X C ve smyslu Eukleidovských vzdáleností. X = n S= VDU U DV = C XC V D V S využitím pravých singulárních vektorů lze psát V SV= D = Λ
PCA a SVD III Z SVD plyne zajímavá rovnost = X V = U D, takže komponentní skóry t j = d j U j, j = 1,..., m, lze určit velmi snadno bez násobení matic. Pokud se provede řádkové centrování matice X (odečítání řádkových průměrů přes všechny znaky), je matice X RC X RC až na násobivou konstantu rovna kovarianční matici S 0 pro objekty. Z SVD matice X RC = U R D R V R pak plyne X X = U D a = D RC RC S0 R R UR UR S0 UR R Jde opět o rozklad kovarianční matice objektů na vlastní vektory U Rj jako sloupce matice U R a odpovídající vlastní čísla λ Rj = d Rj.
PCA a SVD IV SVD rozklad umožňuje jak analýzu v prostoru znaků (což je vlastně standardní přístup) označovanou jako R-mód, tak i analýzu v prostoru objektů (což je speciální případ) označovanou jako Q-mód. Dualita Q a R módu na příkladu jedné komponenty V (vlastní číslo λ) a jedné komponenty U (vlastní číslo λ R ) pro matici X S, která je centrovaná jak po sloupcích, tak i po řádcích. XS XS V = λ V a XS XS U = λr U XS XS ( XS V) = λr ( XS V) λ = λ R a XS V = ku, kde k souvisí s použitými normalizačními podmínkami. Standardní volba V V = 1 vede ke vztahu k U U = λ. Vzdálenosti mezi body v prostoru hlavních komponent R-módu a Q- módu jsou stejné, což se označuje jako dualita.
PCA a SVD V Dvojný graf umožňuje zobrazení všech dat v prostoru zvolené dimense. Standardně se používá zobrazení ve dvou dimenzích (projekce do prvních dvou hlavních komponent). Jednoduché je použít SVD rozklad D dvojný graf využívá pouze první dva diagonální elementy matice D (ostatní diagonální prvky jsou nahrazeny nulami). Označme tuto matici jako D*. D aproximace matice X má pak tvar: * * X = UD V Dále se počítají matice: XC = UDV G = U(D ) a H = (D )V * * Klasický dvojný graf je pak závislost řádků matice G na řádcích matice H. Matice G obsahuje skóry a matice H zátěže.
Interpretace PC I Původní matice X c = (x 1,..., x m ) - tvoří n bodů v m rozměrném prostoru znaků Matice skórů (t 1,..., t m ) - tvoří n bodů v m nebo k rozměrném prostoru PC. j-tý vektor t j PC i-tý vektor x Ci t j = m i=1 vij xci v ij jsou prvky matice V m, resp. V k pokud se užívá pouze k komponent. x m = v t Ci ij j j=1
Interpretace PC II x α cos α = cos α = x z ((x x)*(z z)) 1/ (x x) (p p) V prostru znaků je t j vážený součet vektorů x Ci s vahami v ij. Délka tohoto vektoru p=k*z z j j j j C C j j d( t ) = t t = v X X v = λ Projekce t Pji vektoru x Ci na t j je ve tvaru t Pji = t j b, kde b je směrnice. t tjx Ci tjx ( Ci j x - b t ) = 0 a b = = Ci j tt j j λ j
Interpretace PC III Protože je t j t k = 0 pro j # k (vektory t j jsou ortogonální) je j Ci m = = j v v k=1 t x t t ik k ij j edy b = v ij. a projekční vektor t Pji = v ij t j má délku p = = = ij t t v λ v λ Pji Pji ij j ij j λ Délka vektoru t j. m d( t j) = v p m ij ij i=1 i=1 = vij λ j
Interpretace PC IV Příspěvek každého původního znaku k délce vektoru t j je tedy úměrný čtverci v ij. Délka tohoto vektoru je úměrná směrodatné odchylce odpovídající hlavní komponenty (PC). Rozptyl objasněný j-tou PC je složen z příspěvků původních znaků a jejich významnosti vyjádřené pomocí v ij. Malé v ij znamená, že i-tý původní znak má malý vliv na variabilitu j-té PC a je pro ni nevýznamný. Pokud má řádek matice V všechny hodnoty malé je i-tý znak nevýznamný pro všechny PC.
Příspěvkový graf Graf složený z m skupin. V každé skupině je m sloupců. Každá skupina odpovídá jedné PC a každý sloupec ve skupině odpovídá jednomu znaku Výšky sloupců jsou úměrné Vij Výšky sloupců v pní skupině jsou standardizovány tak, aby jejich součet byl 100 %. (dělení součtem jejich délek Ls) Stejná standardizace je použita u ostatních skupin. Je možné posoudit vliv znaků na jednotlivé PC λ
Korelace Vazby mezi původními znaky a PC lze vyjádřit pomocí korelačních koeficientů mezi x Ci a t j, r ij x Ci t j V ij λ j = cos αij = = ( xci xci) tj tj σi σ i je směrodatná odchylka pro i-tý znak. Při použití normalizovaných znaků (matice S je nahrazena korelační maticí R) jsou korelační koeficienty přímo rovny dílčím projekcím r ij = p ij Vyšší r ij indikuje, že x Ci je blízké k t j, a přispívá významně k rozptylu objasněnému j-tou PC. p σ ij i
Rekonstrukce I Pokud se pro konstrukci matice použije pouze k < m hlavních komponent platí, že k k p ij Vij 1 resp. 1 j=1 j=1 λ j Projekce x Ci do k-rozměrného prostoru hlavních komponent leží v k- rozměrném elipsoidu s poloosami λi. Pokud platí znaménko rovnosti, leží x Ci celé uvnitř elipsoidu. Pokud to neplatí, je hraniční délka projekce do ortogonálního podprostoru dána jako λ k+ 1. Pro složky x * Ci neobsažené v k rozměrném podprostoru pak platí, že x m * Ci ij j = V j=k+1 t Rozklad x k = x + e = t + t ˆ V V Ci Ci i ij j ij j j=1 j=k+1 m
Rekonstrukce II Vektor reziduí pro i-tý znak je e i = x Ci *, takže d(x Ci *) odpovídá reziduálnímu součtu čtverců pro i-tý znak a celkový reziduální m m m součet čtverců je RSC = d ( ) = V λ k xci ij j i=1 i=1 j=k+1 Je patrné, že reziduum e ij pro j-tý znak a i-tý objekt je i-tým prvkem vektoru e j = (e j1,..., e ji,..., e jn ). Na základě odvození hlavních komponent pro vektor znaků (populační hlavní komponenty) lze RSC k vyjádřit také ve tvaru n n k ki Ci k k i=1 i=1 E V V x RSC = RSC = x ( - ) kde x Ci = (x i1,..., x im ) je sloupcový vektor, jehož prvky jsou složky i-tého řádku matice X C. Veličina RSC ki charakterizuje délku vektoru reziduí mezi i-tým objektem a jeho rekonstrukcí z k hlavních komponent. Ci
Indikace odchylek I Pro indikaci odlehlých objektů je pak možné konstruovat pro dané k indexový graf, a to vynesením RSC ki proti indexu objektů i. Reziduální součet čtverců RSC k je pochopitelně závislý na k. Pro k = m bude RSC k = 0. Optimální volba k je taková, kdy RSC k je dostatečně malé. Graficky to lze identifikovat vynesením RSC k proti k. Výsledkem je speciální graf úpatí pro RSC. K posouzení odchýlení jednotlivých objektů od modelu hlavních komponent postačuje RSC ki. Kromě toho se také často posuzuje odchýlení objektů od jejich centra, pro centrovaný případ X C od nulového bodu.
Indikace odchylek II Využití Mahalanobisovy vzdálenosti, tj. Hotellingovy statistiky i, = = x = -1-1 i yii yii Ci S xci xci Vk Λk Vk xci kde y Ii vznikne z hlavní komponenty y I náhradou vektoru x C i- tým řádkem matice X C, jež je převeden na sloupcový vektor. Body s vysokým RSC ki leží obvykle mino podprostor vymezený hlavními komponentami a body s vysokým i leži v podprostoru hlavních komponent, ale mimo konfidenční elipsoid Je zřejmé, že body odchýlené od modelu hlavních komponent nemusí být extrémně vzdálené od centra a body vzdálené extrémně od centra nemusí být ještě příliš odchýlené od modelu PCA. Rovnice elipsy v prostoru prvních dvou i1 i hlavních komponent má tvar + = 1 p λ1 p λ
Statistická analýza PC I Podmínky 1. Jako ve všech statistických metodách je lepší interpretovat data náhodného výběru ze správně definovaného souboru dle jisté experimentální strategie než data získaná čistě namátkovým způsobem.. Pocházejí-li objekty ze symetrického rozdělení nebo transformací převedené do symetrického rozdělení, výsledky jsou snadněji vysvětlitelné než jde-li o silně sešikmené rozdělení. 3. Vysloveně odlehlé objekty je třeba odhalit a odstranit. Jsou-li data z vícerozměrného normálního rozdělení, pak hlavní komponenty tvoří poloosy m rozměrného elipsoidu. Některé statistické testy vyžadují předem ověření normality.
Statistická analýza PC II V případě, že se PCA používá jako speciální regresní model nebo rekonstrukce matice X resp. pro hledání minimálního počtu hlavních komponent, je obyčejně potřebné zkoumat, jak vliv vlastností výběru na velikosti vlastních čísel a vlastních vektorů, tak stanovovat alespoň přesnost odhadů komponentních skórů, projekcí a zátěží. Vzhledem k tomu, že rozdělení vlastních čísel a vlastních vektorů je velmi složité, používá se v řadě případů buď zjednodušení nebo asymptotických výsledků. Centrálním předpokladem je vícerozměrná normalita znaků x = (x 1,..., x m ) ~ N(μ, C).
Statistická analýza PC III Rozdělení j-tého vlastního čísla λˆ j je asymptoticky normální se střední hodnotou λ j a rozptylem λ j /n. Pro asymptoticky 95%ní interval spolehlivosti populační hlavní komponenty λ j platí ˆ λ j ˆ λ j λ j 1+ 1.96 /n 1-1.96 /n Lze využít faktu, že limitní rozdělení veličiny je N(0, ). Pro konečné výběry jsou odhady λˆ j Přibližně platí, že m 1 E ( ˆ λ j )= λ j 1+ n i, j n ( ln ˆ λ j - vychýlené. λi λ j - λi ln λ j o znamená, že velká vlastní čísla jsou příliš velká, malá vlastní čísla jsou příliš malá. )
Statistická analýza PC IV Pro rozptyl D( λˆ j ) přibližně platí, že λ λ λ λ λ i j i m i_j j j - n 1 1 - n )= ( D ˆ Pro kovarianci platí λ λ λ λ λ λ ˆ - ˆ ˆ ˆ n = ) ˆ, ˆ cov ( j i j i j i Odhady vlastních čísel jsou tedy korelované a jejich rozptyl je podceněný. Pro korekci vychýlení lze použít vztah m * i j j i_j j i ˆ 1 ˆ ˆ = 1 - ˆ ˆ n - λ λ λ λ λ
Statistická analýza PC V Poměrně jednoduše lze určit hranice, kde se budou vyskytovat vlastní čísla z nerovností ˆ λ 1 ˆ λ m max (s j min (s ) j ) j =1,..., kde s j jsou rozptyly čili diagonální prvky kovarianční matice S. Lze také určit mez pro λˆ1 ve tvaru m λˆ max 1 j1 = s ij i = 1,..., m Zde s ij jsou kovarianční matice S a součet představuje součet jednotlivých řádků této matice. m
Statistická analýza PC VI estování hypotézy H 0 : λ k+1 + λ k+... + λ m > γ proti alternativě H A : λ k+1 + λ k+... + λ m < γ. Pokud jsou vlastní čísla matice C různá platí, že náhodná veličina m m m λ - má limitní normální rozdělení s n ˆ i λi nulovou střední hodnotou a rozptylem i=k+1 i=k+1 λi i=k+1 Pro hladinu významnosti α = 0.05 se pak zamítá hypotéza H 0, pokud platí m ˆ λ m i < i = k +1 ˆ λi 1.95γ i = k +1 n
Statistická analýza PC VII Pro testování hypotézy H 0 : λ k+1 = λ k+ =... = λ m, což je ekvivalentní testu hypotézy C = V V + σ E, tedy izotropie chybového členu, lze použít veličinu χ = m λi i=k+1 m-k k+1 i=1 λi (m - k ) m - k která má χ rozdělení s 0.5(m - k - 1)(m - k - ) stupni volnosti. n/
Statistická analýza PC VIII Při statistické analýze vlastních vektorů se využívá toho, že rozdíl ( Vˆ i -V i ) má asymptoticky normální rozdělení N(0, D), kde m i j kovarianční matice D má tvar λ λ D = Vj Vj n j_i ( λj - λi ) Pro směrodatnou odchylku j-tého prvku vlastního vektoru V j = (v j1,..., V ji,..., V jm ) platí s Vji = m ˆ λ j n l_j ˆ λl ( ˆ λl - ˆ λ j Pokud se uvažuje pouze prvních k vektorů, dochází k vychýlení těchto odhadů. ) V jl
Statistická analýza PC XI Při praktické aplikaci PCA se obyčejně vyčíslují komponentní skóry t j mající nulovou střední hodnotu E(t j ) = 0 a rozptyl D(t j ) = λ j. Za předpokladu normality je pak snadné určit intervaly spolehlivosti. Pro k-tý objekt čili k-tý řádek matice X C je komponentní skóre, odpovídající i-té hlavní komponentě ve tvaru m t i (k) = x j=1 kde V ji jsou vlastně prvky i-tého sloupce matice V. člen C j(k, i) = x kj V ji je pak příspěvkem k-tého objektu j-tého znaku ke skóre odpovídající i-té hlavní komponentě. Zjednodušeně lze vyjádřit rozptyl tohoto příspěvku jako kj V ji σˆ = D( x ) D( V ) σ V C kj ji x ji
PCA diagnostika I Pro vyjádření vlivu jednotlivých objektů na výsledky PCA je možné použít analogický přistup jako u regresní diagnostiky tj. vypuštění jednotlivých objektů. Nechť kovarianční matice C (i) s vypuštěným i- tým objektem čili i-tým řádkem matice X C má vlastní čísla λ 1(i) <= λ (i) <=... λ m(i). Přirozenou mírou vlivu vypuštění i-tého objektu na j- tou hlavní komponentu je rozdíl λ j -λ j(i) <=0 pro j = 1,..., m. Vliv vypuštění i-tého objektu na všechna vlastní čísla je pak vyjádřen m vztahy (i) = ( - ) n n - 1 Iλ λj λj(i) Iλ (i) = x Ci xci j=1 kde x Ci je vektor, odpovídající vypuštěnému objektu. Je proto patrné, že data, která leží daleko od centra μ mají velký vliv na odhady, získané PCA bez ohledu na jejich vzdálenost od hlavních komponent.
PCA diagnostika II Eukleidovská vzdálenost objektu od střední hodnoty μ d n - 1 ( x - μ) = ( xc ) = tr tr n C C Pro posouzení relativního vlivu i-tého objektu na j-tou hlavní komponentu je výhodné použít vztah I λ j (i)= λ j - λ I λ (i) j(i) j = 1,...,m Pokud je I λ j (i)= 0, znamená to, že odpovídající objekt nepřispívá ke změnám vlastních čísel a vlastních vektorů. (i)
PCA diagnostika III Vliv i-tého objektu na změnu j-tého vlastního vektoru V j se posuzuje na základě úhlu θ j(i) mezi V j a V j(i). cosθ j(i) = m t l=1 [ t [ λ j il - /( λ j kde t ij, j = 1,..., m(k) jsou komponentní skóry pro i-tý objekt, počítané z celé matice X C. yto statistiky umožňují posouzení vlivu jednotlivých objektů na výsledek PCA a tedy hodnocení kvality dat. ij λ - j(i) λ ] -1 j(i) ) ]
PCA pro korelovaná data I Simulovaná data z 3D normálního rozdělení s nulovým vektorem středních hodnot a korelační maticí 1 r r 1 13 r 1 r 1 3 r r 1 Bylo generováno N =500 dat pro různé varianty párových korelačních koeficientů. 13 3
PCA pro korelovaná data II Všechny korelace jsou nulové
PCA pro korelovaná data III Všechny korelace jsou 0.9
Falešné korelace I 1 r = H H 1 13 H r = r = H Vícenásobný korelační koeficient Parciální korelační koeficienty 0 1,3() = Proměnná x 3 je tedy parazitní a nepřispívá k objasnění variability proměnné x 1 Pro simulaci bylo voleno H = 0,9. 3 R R = 1(,3) H H 1,(3) R = 1+ H
Falešné korelace II Graf úpatí a příspěvkový graf
r Nízké párové korelace I = H H 1 0.01 13 = 0 Vícenásobný korelační koeficient Parciální korelační koeficienty Všechny proměnné jsou tedy významné. r 3 r = 1 H R 1 = (,3) R = 0.71 R 0. 71 1,3() 1 =,(3) 0.707
Nízké párové korelace II Graf úpatí a příspěvkový graf PCA nemůže plně nahradit korelační analýzu
Vliv centrování a normalizace na PCA
Omezení PCA Data musí být ve stejném měřítku. PCA je lineární metoda, která selhává u nelineárních struktur -D data mají 3 shluky, které nelze nijak vhodně lineárně promítnout 3-D data mají 3 shluky (každý leží v jiném podprostoru). Nedojde ani ke snížení dimense ani zviditelnění
Zatím vše!!!