AVDAT Mnohorozměrné metody metody redukce dimenze

Podobné dokumenty
AVDAT Vektory a matice

AVDAT Geometrie metody nejmenších čtverců

SVD rozklad a pseudoinverse

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Základy maticového počtu Matice, determinant, definitnost

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

AVDAT Klasický lineární model, metoda nejmenších

Faktorová analýza příklad. Obrázek 1 Ukázka části vstupních dat

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Faktorová analýza (FACT)

Výstupy z výukové jednotky. 2. Princip faktorové analýzy

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

AVDAT Mnohorozměrné metody, metody klasifikace

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Analýza hlavních komponent

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Náhodný vektor a jeho charakteristiky

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Vlastní čísla a vlastní vektory

Interpolace, ortogonální polynomy, Gaussova kvadratura

2. Schurova věta. Petr Tichý. 3. října 2012

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

Vlastní čísla a vlastní vektory

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

11 Analýza hlavních komponet

0.1 Úvod do lineární algebry

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

1 Linearní prostory nad komplexními čísly

Vlastní číslo, vektor

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

ZX510 Pokročilé statistické metody geografického výzkumu

1 Determinanty a inverzní matice

Podobnostní transformace

1 Projekce a projektory

Množinu všech matic typu m n nad tělesem T budeme označovat M m n (T ), množinu všech čtvercových matic stupně n nad T pak M n (T ).

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat

Úvod do lineární algebry

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

1 Báze a dimenze vektorového prostoru 1

15 Maticový a vektorový počet II

Faktorová analýza Osnova

EUKLIDOVSKÉ PROSTORY

AVDAT Výběr regresorů v mnohorozměrné regresi

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Úlohy nejmenších čtverců

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro

a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.

Vícerozměrné statistické metody

Vlastní čísla a vlastní vektory

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Numerické metody a programování

Symetrické a kvadratické formy

[1] Motivace. p = {t u ; t R}, A(p) = {A(t u ); t R} = {t A( u ); t R}

Základy matematiky pro FEK

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

(Cramerovo pravidlo, determinanty, inverzní matice)

LEKCE 11 FAKTOROVÁ ANALÝZA

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Numerické metody a programování. Lekce 4

DEFINICE Z LINEÁRNÍ ALGEBRY

Poznámky k předmětu Aplikovaná statistika, 4. téma

Aplikovaná numerická matematika

Věta 12.3 : Věta 12.4 (princip superpozice) : [MA1-18:P12.7] rovnice typu y (n) + p n 1 (x)y (n 1) p 1 (x)y + p 0 (x)y = q(x) (6)

AVDAT Nelineární regresní model

9 Kolmost vektorových podprostorů

Singulární rozklad. Petr Tichý. 31. října 2013

Poznámky k předmětu Aplikovaná statistika, 4. téma

Klasifikace a rozpoznávání. Extrakce příznaků

stránkách přednášejícího.

PRAVDĚPODOBNOST A STATISTIKA

Aplikovaná numerická matematika - ANM

11. Skalární součin a ortogonalita p. 1/16

VĚTY Z LINEÁRNÍ ALGEBRY

Operace s maticemi

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

Lineární algebra : Skalární součin a ortogonalita

Lineární algebra : Skalární součin a ortogonalita

Vlastní čísla a vlastní vektory

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Cílem této kapitoly je uvedení pojmu matice a jejich speciálních typů. Čtenář se seznámí se základními vlastnostmi matic a s operacemi s maticemi

Pravděpodobnost a aplikovaná statistika

Definice : Definice :

Hisab al-džebr val-muqabala ( Věda o redukci a vzájemném rušení ) Muhammada ibn Músá al-chvárizmího (790? - 850?, Chiva, Bagdád),

Arnoldiho a Lanczosova metoda

P 1 = P 1 1 = P 1, P 1 2 =

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

Kapitola 11: Vektory a matice:

Transkript:

AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita

Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak vlastní číslo (charakteristické číslo, eigenvalue) je takový skalár λ, aby u 0 platilo: Au = λu, u je vlastní (charakteristický) vektor. Rovnost platí pro každý vektor cu, c 0. Normované vektory (s normou rovnou jedné), v = cu, c = 1/ u. Rovnost pak můžeme přepsat na tvar (A Iλ)v = 0 Protože v 0, musí platit, že determinant matice v závorkách A Iλ = 0 Tento determinant je polynom n-tého stupně, řešení je λ 1, λ 2,, λ n a každému vlastnímu číslu odpovídá vlastní vektor v i.

Opakování vlastní čísla a vlastní vektory Když A je symetrická matice, pak všechna vlastní čísla jsou reálná a vlastní vektory jsou ortogonální. v T i v i = 1 v T i v i = 0 i = 1, 2,, n i j Když vlastní vektory uspořádáme do matice V = [v 1, v 2,, v n ], pak V je ortogonální matice, tj. platí V T = V 1 a V T V = I.

Opakování vlastní čísla a vlastní vektory Matici A můžeme diagonalizovat: λ 1 0 0 V T 0 λ 2 0 AV = L =...... 0 0 λ n Pak stopa matice A je rovna součtu jejích vlastních čísel, Tr(A) = n i=1 λ i a determinant matice A je roven součinu jejích vlastních čísel, A = λ 1 λ 2 λ n.

Analýza hlavních komponent Snaží se vysvětlit celkový rozptyl vektoru náhodných veličin, resp. jeho podstatnou část pomocí méně veličin. x = (X 1, X 2,..., X p ) T náhodný vektor V = [cov(x i, X j )] = [σ ij ], i, j = 1, 2,..., p kovarianční matice Kovarianční matice V typu (p p) je symetrická (vlastní čísla jsou reálná) a pozitivně semidefinitní, tj. y T Vy 0 pro jakýkoliv vektor y 0 všechna vlastní čísla jsou nezáporná.

PCA Vlastní čísla můžeme uspořádat: Matici V můžeme napsat jako λ 1 λ 2... λ p 0 V = UΛU T, UU T = I, (1) kde Λ = diag(λ 1,..., λ p ) a k tý sloupec matice U je vlastní vektor v k matice V, který přísluší vlastnímu číslu λ k a pro který platí v T k v k = 1. Tedy v k jsou ortonormální vlastní vektory kovarianční matice V, platí Vv k = λ k v k V = λ 1 v 1 v T 1 + λ 2v 2 v T 2 +... + λ pv p v T p I = v 1 v T 1 + v 2v T 2 +... + v pv T p

PCA Vektory v 1, v 2,..., v p tvoří bázi prostoru R p, takže libovolný vektor y R p lze vyjádřit jako y = c 1 v 1 + c 2 v 2 +... + c p v p Platí pro každý vektor y R p jednotkové délky (y T y = 1), že kvadratická forma y T Vy λ 1, při čemž rovnost platí pro c = v 1, tj. pro první vlastní vektor. Celková variabilita náhodného vektoru x = (X 1, X 2,..., X p ) T je součet diagonálních prvků kovarianční matice (rozptylů jednotlivých náhodných veličin): σ 2 = var(x 1 ) + var(x 2 ) +... + var(x p )

PCA Hledáme novou náhodnou veličinu, která vznikne lineární transformací vektoru x = (X 1, X 2,..., X p ) T, tj. vlastně hledáme c R p, c T c = 1, aby náhodná veličina měla co největší rozptyl. Tím tato nová veličina vyčerpá co největší část celkové variability, tzn. její rozptyl je roven λ 1. Tedy c = v 1. Náhodnou veličinu Y 1 = v T 1 x nazýváme první hlavní komponentou.

PCA Pak hledáme další náhodnou veličinu, tj. další c R p, c T c = 1, aby náhodná veličina c T x byla nekorelovaná s Y 1 = v T 1 x. Tomu vyhovuje c = v 2, takže druhá hlavní komponenta je Y 2 = v T 2 x a její rozptyl je var(y 2 ) = var(v T 2 x) = λ 2. Podobně i pro třetí a další hlavní komponenty. Celková variabilita σ 2 = var(x 1 ) + var(x 2 ) +... + var(x p ) = = var(y 1 ) + var(y 2 ) +... + var(y p ) = Relativní podíl celkové variability vysvětlovaný i-tou hlavní komponentou je λ i /σ 2. Prvních k hlavních komponent vysvětluje k i=1 λ i/σ 2 z celkové variability. p i=1 λ i

PCA Korelační matice je kovarianční matice standardizovaných veličin. Pak celková variabilita je rovna počtu veličin, σ 2 = p λ i = p i=1

PCA Možnosti analýzy hlavních komponent ukážeme na příkladu EMPLOY.XLS. Vycházíme z výběrové korelační matice. Principal Components Report Individual Cumulative No. Eigenvalue Percent Percent Scree Plot 1 3.487151 38.75 38.75 2 2.130173 23.67 62.41 3 1.098958 12.21 74.63 4 0.994483 11.05 85.68 5 0.543218 6.04 91.71 6 0.383428 4.26 95.97 7 0.225754 2.51 98.48 8 0.136790 1.52 100.00 9 0.000046 0.00 100.00 Vidíme, že tři vlastní čísla jsou větší než 1, čtvrté téměř rovno jedné. První dvě hlavní komponenty vysvětlují 62 % z celkové variability, první čtyři už 85 % celkové variability.

PCA První čtyři vlastní vektory jsou v následující tabulce: Eigenvectors Variables Factor1 Factor2 Factor3 Factor4 AGR 0.523791 0.053594 0.048674 0.028793 MIN 0.001323 0.617807-0.201100 0.064085 MAN -0.347495 0.355054-0.150463-0.346088 PS -0.255716 0.261096-0.561083 0.393309 CON -0.325179 0.051288 0.153321-0.668324 SER -0.378920-0.350172-0.115096-0.050157 FIN -0.074374-0.453698-0.587361-0.051567 SPS -0.387409-0.221521 0.311904 0.412230 TC -0.366823 0.202592 0.375106 0.314372

PCA

Faktorová analýza Faktorová analýza je jedna z metod redukce dimenze úlohy. Snaží se vysvětlit kovarianční strukturu (korelační matici) vektoru náhodných veličin, pomocí méně tzv. faktorů, tj. jakýchsi skrytých veličin, které nemůžeme nebo neumíme přímo měřit.

Faktorová analýza Naměřená data jsou matice X typu n p (n objektů, p veličin). Standardizovaná matice dat je matice Z opět typu n p, kde z ij = x ij x j s j x j, s j jsou výběrový průměr a směrodatná odchylka j-té veličiny. Model faktorové analýzy můžeme pak zapsat z ij = a j1 f i1 + a j2 f i2 +... + a jm f im + e ij, m < p tj. naměřenou hodnotu j-té veličiny na i-tém objektu vysvětlujeme jako vážený součet m faktorů a nějaké složky, která těmito faktory vysvětlit nelze.

Faktorová analýza Zavedeme následující matice: A F E je typu (p m), má prvky a jk, označují se jako faktorové zátěže (sycení, saturace, loadings) je typu (n m), má prvky f ik, říká se jim faktorové skóry je typu (n p), má prvky e ij, jsou to rezidua, tj. to z hodnot z ij, co nemůžeme vysvětlit pomocí faktorů Maticově pak můžeme model faktorové analýzy zapsat takto: Z = FA T + E

Faktorová analýza Předpokládejme, že faktory jsou ortonormální (nekorelované, jednotkové délky), tzn. F T F = I. Označme U = E T E. U je diagonální matice typu p p, tedy U = diag(u 1, u 2,..., u p ), kde u j = n i=1 e2 ij, tj. variabilita j-té veličiny, kterou nelze vysvětlit faktory, tzv. specificita. Pak m h j = 1 u j = k=1 je tzv. komunalita j-té veličiny, tj. variabilita vysvětlitelná faktory. Korelační matici můžeme vyjádřit jako R = AA T + U Matice AA T vysvětluje korelační matici až na diagonální prvky, kde místo jedniček jsou komunality. a 2 jk

Faktorová analýza Faktorová analýza hledá model, aby příspěvek specifických faktorů (u j ) byl co nejmenší faktorové zátěže byly v absolutní hodnotě co nejbližší jedné nebo nule počet faktorů byl co nejmenší (podstatně menší než počet veličin) Tyto požadavky jsou ve vzájemném rozporu a umění faktorové analýzy spočívá v nalezení vhodného a přijatelného kompromisu.

Faktorová analýza extrakce faktorů - stanovit jejich počet, např. z vlastních čísel korelační matice problém komunalit R 2 j h j 1, kde R 2 j je koeficient mnohonásobné korelace (j-tá veličina na ostatních) rotace faktorů tj. nalezení jednoduché struktury, aby faktorové zátěže v absolutní hodnotě byly co nejbližší jedné nebo nule Ortogonální rotace znamená najít takovou transformaci matice A na B = AT, aby B splňovalo požadavek jednoduché struktury, T je ortogonální matice, tj. T T T = I, takže AA T = BB T.

Faktorová analýza Rotace faktorů VARIMAX, založená na maximalizaci výrazu 1 p m j=1 i=1 p (aij 2 a 2 j )2, kde a 2 j = 1 p p i=1 a2 ij, tj. průměr čtverců zátěží pro j-tý faktor. Po rotaci můžeme nahlédnout, která veličina patří kterému faktoru (faktorové zátěže v absolutní hodnotě blízké jedné), případně faktorové zátěže jednotlivých veličin vynést do grafů pro dvojice faktorů. Lze pak spočítat i faktorové skóry a na grafech faktorových skórů hledat, zda zobrazené objekty nevytvářejí nějaké shluky signalizující možný rozklad pozorovaných objektů do dvou či více podskupin.

Faktorová analýza Příklad Původní data byla výsledky dosažené ve výběru 220 chlapců v šesti předmětech - galštině, angličtině, dějepisu, aritmetice, algebře a geometrii. Máme výběrovou korelační matici (dolní trojúhelník, předměty jsou ve výše uvedeném pořadí): 1.00 0.44 1.00 0.41 0.35 1.00 0.29 0.35 0.16 1.00 0.33 0.32 0.19 0.59 1.00 0.25 0.33 0.18 0.47 0.46 1.00

Faktorová analýza Příklad Abychom si uvědomili rozdíly mezi analýzou hlavních komponent a faktorovou analýzou, uvádíme nejdříve stručné výsledky analýzy hlavních komponent, která vysvětluje celkový rozptyl, tedy hlavní diagonálu korelační matice. Principal Components Report Individual Cumulative No. Eigenvalue Percent Percent Scree Plot 1 2.728683 45.48 45.48 2 1.128792 18.81 64.29 3 0.615291 10.25 74.55 4 0.602809 10.05 84.59 5 0.522514 8.71 93.30 6 0.401910 6.70 100.00

Faktorová analýza Příklad Dvě vlastní čísla jsou větší než jedna, pro faktorovou analýzu tedy zvolíme počet faktorů 2, rotaci varimax a dostaneme následující výsledky: Factor Analysis Report Eigenvalues after Varimax Rotation Individual Cumulative No. Eigenvalue Percent Percent Scree Plot 1 1.596863 56.94 56.94 2 1.207981 43.08 100.02 3 0.050820 1.81 101.83 4 0.011910 0.42 102.26 5-0.008657-0.31 101.95 6-0.054642-1.95 100.00

Faktorová analýza Příklad Absolutní hodnoty faktorových zátěží jsou znázorněny graficky: Bar Chart of Absolute Factor Loadings after Varimax Rotation Variables Factor1 Factor2 Gaelic English History Arithmetic Algebra Geometry Faktor 1 je sycen veličinami aritmetika, algebra a geometrie, faktor 2 veličinami galština, angličtina a dějepis.