d d Víceozměná data Metoda hlavních komonent Václav Adamec vadamec@mendelucz Extenze unvaetních dat na více oměnných () Datová matce: n x Hodnot oměnných získán z jednoho subjektu () Předoklad závslostí mez oměnným Rozsah MV soubou: n Studum MV souboů: umělé oměnné vznklé lneání funkcí ůvodních oměnných x = w + w + + w Váh w zvolen odle ůzných ktéí Multvaetní ozdělení Bvaetní ozdělení Y ~ MVN (µ,σ) ; µ vekto oulačních ůměů; Σ oulační matce kovaancí Funkce MVN avdě hustot: ( µ ) Σ ( µ ) / f ( ) = e / (π ) Σ Mahalanobsova vzdálenost: = z z = ( µ ) Σ ( µ ) ~ χ 3 Bvaetn Gaussovo ozdelen, = 9 Bvaetn Gaussovo ozdelen, = Detemnant: Genealzovaná vaance S, Σ Malý Σ výskt kolneat (lneáních závslostí) Velký Σ absence kolneat (lneáních závslostí) - - x - - x - - x - - x
Konfdenční els Multvaetní ozdělení x - Konfdencn els: =,9 x - Konfdencn els: =, va els MV ozdělení je dán Hlavní odélná osa funkcí největšího chaaktestckého čísla max Vedlejší říčná osa funkcí nejmenšího chaaktestckého čísla mn Unvaetní nomalta neznamená multvaetní nomaltu est MVN oblematčtější: est elsodního tvau bvaetních ozdělení Multvaetní Q-Q lot Omezeně test (multvaetní SW test, atd) - - - - - - x x Ilustační data Multvaetní Q-Q lot Q-Q lot: Mahalanobsova vzdalenost d vs kvantl χ Kanální mí fotbalstů (Renche, 99): V V3 šířka hlav obvod hlav V V V6 V7 ředo - zadní mía v úovn očí výška oč - temeno výška uš - temeno šířka čelst d 8 6 Kvantl χ
Kovaanční a koelační matce Za odmínk nomalt užtečné Smetcké matce x Výběové (S, R) vs Poulační (Σ) Hlavní dagonála: vaance (S, Σ), jednčk (R) Mmo dagonální vk: kovaance (S, Σ), koelační koef (R) σ j = σ j, j = j R má edukovanou škálu σ σ σ3 σ σ σ σ σ3 σ σ σ3 σ3 σ3 σ3 σ3 Σ= σ σ σ3 σ σ σ σ σ3 σ σ σ6 σ6 σ63 σ6 σ6 σ 6 σ6 σ 36 σ6 σ 6 σ6 3 3 R = 6 6 3 3 3 3 63 3 6 3 6 6 6 36 6 6 V7 V6 V V V3 V Koelační matce Coelační matce - V V3 V V V6 V7 Metoda hlavních komonent Rozklad na vlastní čísla Účel: Hledání lneání f-ce oměnných maxmalzující celkovou vaanc Zjednodušení stuktu dat, edukce dmenze soubou (očtu oměnných) Výbě žádaných (odobných, neodobných) oměnných Studum stuktu dsese MV soubou nebo lneáních závslostí Regese hlavních komonent (řešení kolneat v matc egesoů) Většnou ozkládáme S, R nebo dstanční matc (D) Vžd smetcká čtvecová matce A = A Defnujeme dagonální matc Λ ( x ) a matc koesondujících vlastních vektoů E ( x ) Platí: A = E Λ E A Λ = Matce Λ obsahuje vlastních čísel usořádaných sestuně Matce E obsahuje slouců vlastních vektoů e, kde každý slouec řnáleží jednomu vlastnímu číslu
Vlastnost vlastních čísel Vlastnost vlastních vektoů Součn vlastních čísel: = = A Mají jednotkovou délku e e = e =, Součet vlastních čísel: = = R = t ( R ) = = t ( S ) = S Vlastní čísla ve vztahu Počet nulových udává očet lneáních závslostí v, sngulatu E Podíl k součtu všech vlastních čísel udává ocento celkové vaance vsvětlené Podíl vaance lze kumulovat = s Jsou vzájemně otogonální Matce E je ak otonomální e e = e e =, j Hodnot vlastního vektou e vjadřují míu atcace koesondující oměnné na vaanc (závslost) j E j = E EE = I abulkové vjádření ozkladu Gafcké vjádření ozkladu Sceelot č Lambda % Vaance Kumul % 333 787 787 37 393 88 3 76 89 99 3 6 97 6 7 987 6 88 3 3 333 37 Suma = 997 Součn = 99 76 3 6 88 3 6 Egenvalues
Vaance v matc S: Vlastní vekto ( a ): Pvní dva vlastní vekto V V3 V V V6 V7 6 888 39 38 3 E E V -7 V3-878 9 V -63 3 V -39-89 V6-66 - V7-79 87 Hlavní komonent Pnc: Výočet nových oměnných (hlavních komonent), kteé zachovávají vaanc, ale elmnují kovaance Výočet: Z = YE c = z = e = e + e + + e Vaance PC: c c = z = z = e = e = e = e Va ( c ) = + e + e + + e + + e Hlavní komonent Gaf hlavních komonent Hlavní komonent c jsou vzájemně otogonální Vaance c ae jsou maxmální o =, ale ostuně klesají Hlavní komonent nulových jsou téměř konstantní Nulové důležté o detekc lneáních závslostí PC vs PC -6 PC vs PC3-8 Poslední vlastní vekto: V V3 V V V6 V7 73-38 38 3-3 -6 PC 8 PC3 - - 6 - Na téměř lneání závslost se odílí ředevším V a V7-7 -68-66 -6-6 -6-7 -68-66 -6-6 -6 PC PC
Počet vbaných vlastních čísel Poznámk Ktéa: Vlastní čísla vsvětlující nejméně 8 9 % vaance Vsuální osouzení gafu úatí Λ Nadůměné, > Asmtotcký věohodnostní test Metoda boken stck (Jackson, 993) Počet zvolený odle nejvššího očtu metod PCA je vztažena ke škále oměnných (ozdílná o S a R) Multvaetní nomalta výhodou Výstu PCA ovlvněn extém v datech Koefcent PC egese jsou vchýlené, obtížně nteetovatelné As fa as the laws of mathematcs efe to ealt, the ae not cetan; as fa as the ae cetan, the do not efe to ealt Albet Ensten