Analýza hlavních komponent

Podobné dokumenty
Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Statistika II. Jiří Neubauer

AVDAT Mnohorozměrné metody metody redukce dimenze

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Časové řady, typy trendových funkcí a odhady trendů

Výběrové charakteristiky a jejich rozdělení

Časové řady, typy trendových funkcí a odhady trendů

Náhodné vektory a matice

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Základy teorie odhadu parametrů bodový odhad

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Bodové a intervalové odhady parametrů v regresním modelu

Poznámky k předmětu Aplikovaná statistika, 4. téma

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Poznámky k předmětu Aplikovaná statistika, 4. téma

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Vícerozměrná rozdělení

Ekonometrie. Jiří Neubauer

Kontingenční tabulky, korelační koeficienty

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Základy teorie pravděpodobnosti

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Soustavy lineárních rovnic

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Náhodný vektor a jeho charakteristiky

Statistika II. Jiří Neubauer

Mnohorozměrná statistická data

MATEMATICKÁ STATISTIKA - XP01MST

Příklady ke čtvrtému testu - Pravděpodobnost

Klasifikace a rozpoznávání. Extrakce příznaků

Vícerozměrné statistické metody

Úvod do analýzy časových řad

Definice spojité náhodné veličiny zjednodušená verze

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

Charakterizace rozdělení

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

1 Projekce a projektory

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

AVDAT Geometrie metody nejmenších čtverců

Stavový model a Kalmanův filtr

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Úvod do lineární algebry

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván

NÁHODNÝ VEKTOR. 4. cvičení

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

ANALÝZA A KLASIFIKACE DAT

Základní pojmy teorie množin Vektorové prostory

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

1 Linearní prostory nad komplexními čísly

14. přednáška. Přímka

odpovídá jedna a jen jedna hodnota jiných

Linearní algebra příklady

1 Determinanty a inverzní matice

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Modely pro nestacionární časové řady

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Kontingenční tabulky, korelační koeficienty

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

9.1 Definice a rovnice kuželoseček

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Matematika 1 MA1. 1 Analytická geometrie v prostoru - základní pojmy. 4 Vzdálenosti. 12. přednáška ( ) Matematika 1 1 / 32

Pravděpodobnost a aplikovaná statistika

Vlastní čísla a vlastní vektory

AVDAT Mnohorozměrné metody, metody klasifikace

Diferenˇcní rovnice Diferenciální rovnice Matematika IV Matematika IV Program

1.13 Klasifikace kvadrik

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Lineární algebra : Vlastní čísla, vektory a diagonalizace

Arnoldiho a Lanczosova metoda

Vícerozměrné regulační diagramy. Josef Křepela, Jiří Michálek OSSM

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Výstupy z výukové jednotky. 2. Princip faktorové analýzy

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

Základy maticového počtu Matice, determinant, definitnost

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

PŘÍMKA A JEJÍ VYJÁDŘENÍ V ANALYTICKÉ GEOMETRII

6 Lineární geometrie. 6.1 Lineární variety

IB112 Základy matematiky

0.1 Úvod do lineární algebry

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Regresní a korelační analýza

EUKLIDOVSKÉ PROSTORY

Faktorová analýza (FACT)

Cvičná bakalářská zkouška, 1. varianta

Vícerozměrná geometrická analýza dat

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Podobnost matic. Definice 8.6. Dány matice A, B M n (C). Jestliže existuje regulární matice P M n (C) tak,

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Transkript:

Analýza hlavních komponent Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 1 / 17

(PCA Principal component analysis ) je metodou, pomocí níž lze vysvětlit variančně kovarianční strukturu množiny proměnných pomocí několika lineárních kombinací těchto proměnných. K základním úkolům metody patří redukce dat (snížení dimenze) a interpretace. Máme-li p proměnných, pomocí nichž lze vysvětlit celkovou variabilitu, v řadě případů je možné většinu této variability popsat pomocí mnohem menšího počtu k hlavních komponent. Těchto k hlavních komponent potom může nahradit původních p proměnných, tedy původní datový soubor obsahující n měření p proměnných je redukován na n měření k hlavních komponent. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 2 / 17

Algebraicky jsou hlavní komponenty jisté lineární kombinace původních p náhodných veličin X 1, X 2,..., X p. Z geometrického hlediska reprezentují tyto lineární kombinace výběr nového systému souřadnic získaného rotací původního souřadnicového systému s osami X 1, X 2,..., X p. Nové osy reprezentují směry s největší variabilitou a nabízí jednodušší a více parsimonní popis kovarianční struktury. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 3 / 17

Příklad The weekly rates of return for five stocks (JPMorgan, Citibank, WellsFargo, RoyalDutchShell, ExxonMobil) listed on the New Yourk Stock Exchange were determined for the period January 2004 through December 2005. The weekly rates od return are defined current week closing price previous weeek closing price, previous weeek closing price adjusted for stick splits and dividents. The observations in 103 succesive weeks appear to be independently distibuted, but the rates of return across stock are correlated, because as on expects, stocks tend to move together in response to general economic conditions. Johnson, R. and Wichern, D. Applied Multivariate Statistical Analysis. 6th ed. Pearson 2014. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 4 / 17

Hlavní komponenty závisí výhradně na varianční matici Σ (nebo na korelační matici ρ) proměnných X 1, X 2,..., X p. Nechť náhodný vektor X = (X 1, X 2,..., X p) má varianční matici Σ s vlastními čísly λ 1 λ 2 λ p 0. Uvažujme lineární kombinace Pro proměnné Y 1, Y 2,..., Y p dostáváme Y 1 = a 1X = a 11X 1 + a 12X 2 + + a 1pX p Y 2 = a 2X = a 21X 1 + a 22X 2 + + a 2pX p. Y p = a px = a p1x 1 + a p2x 2 + + a ppx p. D(Y i ) = a i Σa i, i = 1, 2,..., p (1) C(Y i, Y k ) = a i Σa k, i, k = 1, 2,..., p (2) Hlavní komponenty jsou takové nekorelované kombinace Y 1, Y 2,..., Y p, jejichž rozptyly (4) jsou co možná největší. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 5 / 17

První hlavní komponenta je lineární kombinace s největším rozptylem, tedy maximalizující výraz D(Y 1) = a 1Σa 1. Je zřejmé, že vynásobením a 1 nějakou konstantou lze hodnotu rozptylu měnit. Je třeba přidat podmínku jednotkové délky vektoru a 1, tedy a 1a 1 = 1. Druhá hlavní komponenta je lineární kombinace a 2X jež maximalizuje výraz a 2Σa 2 při platnosti a 1a 1 = 1 a C(a 1X, a 2X ) = 0. Podobně se postupuje dále, což znamená, že i-tá hlavní komponenta je lineární kombinace a i X jež maximalizuje výraz a i Σa i při platnosti a i a i = 1 a C(a i X, a kx ) = 0 pro k < i. Určení hlavních komponent souvisí s vlastními čísly a vektory matice Σ. Pozn. Nechť A = (a ij ) je matice řádu n. Číslo λ se nazývá vlastní nebo charakteristické číslo matice A, jestliže existuje nenulový vektor u tak, že Au = λu. Vektor u se nazývá vlastní nebo charakteristický vektor příslušný k λ. Rovnici Au = λu lze přepsat do tvaru (A λi )u = 0. Tato soustava má netriviální řešení, právě když A λi = 0. Příklad: Určete vlastní čísla a vlastní vektory matice ( ) 4 2 A = 1 1 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 6 / 17

Mějme náhodný vektor X = (X 1, X 2,..., X p) s varianční maticí Σ a dvojicemi vlastních čísel a vlastních vektorů (λ 1, e 1), (λ 2, e 2),..., (λ p, e p) splňující λ 1 λ 2 λ p 0. Potom i-tá hlavní komponenta je dána vztahem přičemž Y i = e i X = e i1 X 1 + e i2 X 2 + + e ip X p, i = 1, 2,..., p, (3) D(Y i ) = e i Σe i = λ i, i = 1, 2,..., p, (4) C(Y i, Y k ) = e i Σe k = 0, i k. (5) Označíme-li prvky matice Σ jako σ ij, i, j = 1, 2..., p, potom platí σ 11 + σ 22 + + σ pp = p D(X i ) = λ 1 + λ 2 + + λ p = i=1 p D(Y i ). i=1 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 7 / 17

Podíl k-té hlavní komponenty na celkové variabilitě je dán podílem λ k p i=1 λ. i Pokud lze většinu celkové variability (např. 80 90, %) pro velké p popsat několika hlavními komponentami (např jednou, dvěma nebo třemi), potom lze původní proměnné nahradit těmito komponentami bez velké ztráty informace. Kromě vlastních čísel matice Σ si pozornost zaslouží i koeficienty vlastních vektorů e = (e i1,..., e ik,..., e ip ). Velikost hodnoty e ik určuje význam k-té proměnné v i-té hlavní komponentě. Hodnota e ik je úměrná korelačnímu koeficientu mezi Y i a X k, platí ρ Yi,X k λi = e ik i, k = 1, 2,..., p. σii J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 8 / 17

pro standardizované proměnné pro standardizované proměnné Standardizované proměnné získáme následovně v maticovém vyjádření Z 1 = Z 2 =. Z p = X1 µ1 σ11 X2 µ1 σ22 Xp µp σpp Z = (V 1/2 ) 1 (X µ), (6) kde V 1/2 je diagonální matice směrodatných odchylek. Je zřejmé, že E(Z) = 0 a var(z) = (V 1/2 ) 1 Σ(V 1/2 ) 1 = ρ. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 9 / 17

pro standardizované proměnné pro standardizované proměnné Hlavní komponenty lze získat pomocí vlastních vektorů korelační matice ρ. Uvažujme dvojice vlastních čísel a vektorů (λ 1, e 1), (λ 2, e 2),..., (λ p, e p) korelační matice ρ, kde λ 1 λ 2 λ p 0. Pro proměnné Z = (Z 1, Z 2,..., Z p) s varianční maticí var(z) = ρ, jsou hlavní komponenty dána vztahem Y i = e i Z = e i (V 1/2 ) 1 (X µ), i = 1, 2,..., p Dále platí a p D(Y i ) = i=1 p D(Z i ) = p i=1 ρ Yi,Z k = e ik λi, i, k = 1, 2,..., p. Podíl k-té hlavní komponenty na celkové variabilitě je dán vztahem λ k, k = 1, 2,..., p. p J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 10 / 17

pro standardizované proměnné Příklad Mějme kovarianční matici Odpovídající korelační matice je Σ = ρ = ( ) 1 1,5. 1,5 4 ( ) 1 0,75. 0,75 1 Vlastní čísla a vlastní vektory matice Σ jsou λ 1 = 4,621, e 1 = (0,383; 0,924) λ 2 = 0,379, e 2 = ( 0,924; 0,383) Podobně vlastní čísla a vlastní vektory matice ρ jsou λ 1 = 1 + ρ = 1,75, e1 = (0,707; 0,707) λ 2 = 1 ρ = 0,25, e2 = ( 0,707; 0,707) J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 11 / 17

pro standardizované proměnné Příklad Hlavní komponenty odpovídající matici Σ potom jsou Y 1 = 0,383X 1 + 0,924X 2 Y 2 = 0,924X 1 + 0,383X 2 a pro matici ρ ( Y1 X1 µ 1 = 0,707Z 1 + 0,707Z 2 = 0,707 1 ( Y2 X1 µ 1 = 0,707Z 1 + 0,707Z 2 = 0,707 1 ) + 0,707 ) + 0,707 ( ) X2 µ 1 2 ( ) X2 µ 1 2 Rozptyl proměnné X 2 je větší než rozptyl X 1, k první hlavní komponentě přispívá více. Navíc tato první hlavní komponenta vysvětluje podíl na celkovém rozptylu. λ 1 4,621 = λ 1 + λ 2 4,621 + 0,379 = 0,924 J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 12 / 17

pro standardizované proměnné Příklad Podíváme-li se na standardizované proměnné, pak příspěvky obou proměnných Z 1 a Z 2 k hlavním komponentám jsou stejné. Dále platí ρ Y1,Z 1 = e 11 λ 1 = 0,707 1,75 = 0,935 ρ Y1,Z 2 = e 21 λ 1 = 0,707 1,75 = 0,935 První hlavní komponenta určená ze standardizovaných veličin vysvětluje podíl λ 1 p = 1,75 = 0,875 2 na celkovém rozptylu. Z uvedeného příkladu je vidět, že standardizace ovlivňuje výsledky metody hlavních komponent, hlavní komponenty získané z varianční matice Σ se liší od těch získaných z korelační matice ρ. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 13 / 17

Výběrové hlavní komponenty Výběrové hlavní komponenty Předpokládejme, že máme náhodný výběr x 1, x 2,..., x n ze základního souboru se střední hodnotou µ a varianční maticí Σ. Určíme výběrový průměr x, výběrovou varianční matici S a výběrovou korelační matici R. Cílem je najít takové nekorelované lineární kombinace, které budou schopny popsat většinu variability ve výběru. První výběrová hlavní komponenta je taková lineární kombinace a 1x j, která maximalizuje výběrový rozptyl a 1x j za podmínky a 1a 1 = 1. Druhá výběrová hlavní komponenta je lineární kombinace a 2x j, která maximalizuje výběrový rozptyl a 2x j za podmínek a 2a 2 = 1 a nulové kovariance dvojice (a 1x j, a 2x j ). Podobným způsobem se postupuje dále, tudíž i-tá výběrová hlavní komponenta je lineární kombinace a i x j maximalizující výběrový rozptyl a 1x j při splnění podmínek a i a i = 1 a nulové kovariance párů (a 1x j, a kx j ), k < i. Výpočet výběrových hlavních komponent je úzce spojen s vlastními čísly a vektory výběrové varianční matice S. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 14 / 17

Výběrové hlavní komponenty Výběrové hlavní komponenty Je-li S = {s ik } výběrový varianční matice typu p p s vlastními čísly a vektory tvořící dvojice (ˆλ 1, ê 1), (ˆλ 2, ê 2),..., (ˆλ p, ê p), ˆλ 1 ˆλ 2 ˆλ p 0, pak i-tá výběrová hlavní komponenta je dána vztahem ŷ i = ê i x = ê i1 x 1 + ê i2 x 2 + + ê ip x p, i = 1, 2,..., p, kde x je libovolné pozorování proměnných X 1, X 2,..., X p. Dále platí, že výběrový rozptyl ŷ k je roven ˆλ k, k = 1, 2,..., p, výběrová kovariance dvojic (ŷ i, ŷ k ) je pro i k rovna nule. Celkový výběrový rozptyl je potom dán vztahem p s ii = ˆλ 1 + ˆλ 2 + + ˆλ p a korelační koeficienty výrazem i=1 rŷi,x k = êik ˆλ i, i, k = 1, 2,..., p. skk Při analýze dat je často používáno centrování odečtením výběrového průměru x. Toto centrování nemá vliv na výběrovou varianční matici. Pro libovolný vektor pozorování x je i-tá hlavní komponenta dána ŷ i = ê i (x x), i = 1, 2,..., p. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 15 / 17

Výběrové hlavní komponenty Grafické zobrazení hlavních komponent S využitím jednoduchých grafických nástrojů lze nalézt podezřelá pozorování, lze také provést ověření předpokladu normality. Obvykle se provádí ověření normality pro několik prvních hlavních komponent. To lze udělat například pomocí QQ-plotu. Na druhé straně poslední hlavní komponenty mohou pomoci při odhalení neobvyklých pozorování. Každé pozorování lze vyjádřit jako lineární kombinaci x j = (x j ê 1)ê 1 + (x j ê 2)ê 2 + + (x j ê p)ê p = ŷ j1 ê 1 + ŷ j2 ê 2 + + ŷ jp ê p všech vlastních vektorů ê 1, ê 2,..., ê p matice S. Velikost posledních hlavních komponent poukazuje na to, jak dobře prvních několik hlavních komponent propisují data. Takže ŷ j1 ê 1 + ŷ j2 ê 2 + + ŷ j,q 1 ê q 1 se liší od x j o ŷ jq ê q + + ŷ jp ê p, tedy o délku ŷjq 2 + + ŷ jp 2. Neobvyklé pozorování obvykle takové, jehož souřadnice ŷ jq,..., ŷ jp jsou velké. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 16 / 17

Výběrové hlavní komponenty Grafické zobrazení hlavních komponent Dalším typem grafu, který se obvykle v analýze hlavních komponent používá, je bodový graf výběrových hlavních komponent (např. na vodorovnou osu vyneseme souřadnice první výběrové hlavní komponenty určené z analyzovaných dat, na osu svislou potom druhou výběrovou hlavní komponentu). Předpokládejme, že analyzovaná data jsou výběrem z vícerozměrného náhodného rozdělení se střední hodnotou µ a varianční maticí Σ. Uvažujme první dvě hlavní komponenty. Výběrový rozptyl první hlavní komponenty ŷ 1 je ˆλ 1, výběrový rozptyl druhé hlavní komponenty ŷ 2 je ˆλ 2. Vykreslíme-li bodový graf hodnot (ŷ j1 ), ŷ j2 pro j = 1, 2,..., n, měly tyto body ležet uvnitř elipsy o rovnici ŷ 2 1 ˆλ 1 + ŷ 2 2 ˆλ 2 χ 2 1 α(2). Vynesené body by měly mít přibližně eliptický tvar. J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza hlavních komponent 17 / 17