11 Analýza hlavních komponet



Podobné dokumenty
Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.

Numerické metody a programování

Základy maticového počtu Matice, determinant, definitnost

Stavový model a Kalmanův filtr

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Numerické metody a programování. Lekce 4

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu.

Operační výzkum. Přiřazovací problém.

Uspořádanou n-tici reálných čísel nazveme aritmetický vektor (vektor), ā = (a 1, a 2,..., a n ). Čísla a 1, a 2,..., a n se nazývají složky vektoru

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

1 Vektorové prostory.

1 0 0 u 22 u 23 l 31. l u11

0.1 Úvod do lineární algebry

Soustavy lineárních rovnic

0.1 Úvod do lineární algebry

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Lineární algebra Operace s vektory a maticemi

Operace s maticemi

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

Matematika B101MA1, B101MA2

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Podobnostní transformace

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Aplikovaná numerická matematika - ANM

11. Skalární součin a ortogonalita p. 1/16

2. Schurova věta. Petr Tichý. 3. října 2012

Úlohy nejmenších čtverců

AVDAT Geometrie metody nejmenších čtverců

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

AVDAT Mnohorozměrné metody metody redukce dimenze

1 Báze a dimenze vektorového prostoru 1

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Vlastní číslo, vektor

Soustavy se spínanými kapacitory - SC. 1. Základní princip:

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

4. Aplikace matematiky v ekonomii

Determinanty. Determinanty. Přednáška MATEMATIKA č. 3. Jiří Neubauer

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

(Cramerovo pravidlo, determinanty, inverzní matice)

1 Linearní prostory nad komplexními čísly

AVDAT Vektory a matice

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

Aplikovaná numerická matematika

Jiří Neubauer. Katedra ekonometrie FEM UO Brno

Kapitola 11: Vektory a matice:

DEFINICE Z LINEÁRNÍ ALGEBRY

2. ZÁKLADY MATICOVÉ ALGEGRY 2.1. ZÁKLADNÍ POJMY

AVDAT Klasický lineární model, metoda nejmenších

Lineární algebra. Matice, operace s maticemi

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Operace s maticemi. 19. února 2018

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

1 Projekce a projektory

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

1 Determinanty a inverzní matice

SVD rozklad a pseudoinverse

Vlastní čísla a vlastní vektory

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Základy matematiky pro FEK

Soustavy lineárních rovnic a determinanty

Soustavy linea rnı ch rovnic

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

1.13 Klasifikace kvadrik

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Derivace funkcí více proměnných

z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.

Symetrické a kvadratické formy

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

Parametrická rovnice přímky v rovině

9 Kolmost vektorových podprostorů

Klasifikace a rozpoznávání. Extrakce příznaků

6 Skalární součin. u v = (u 1 v 1 ) 2 +(u 2 v 2 ) 2 +(u 3 v 3 ) 2

Globální matice konstrukce

Kapitola 11: Vektory a matice 1/19

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

VĚTY Z LINEÁRNÍ ALGEBRY

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Singulární rozklad. Petr Tichý. 31. října 2013

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

[1] Motivace. p = {t u ; t R}, A(p) = {A(t u ); t R} = {t A( u ); t R}

PRAVDĚPODOBNOST A STATISTIKA

[1] Determinant. det A = 0 pro singulární matici, det A 0 pro regulární matici

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Soustava m lineárních rovnic o n neznámých je systém

10. N á h o d n ý v e k t o r

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Polynomy. Mgr. Veronika Švandová a Mgr. Zdeněk Kříž, Ph. D. 1.1 Teorie Zavedení polynomů Operace s polynomy...

6. Lineární nezávislost a báze p. 1/18

Transkript:

11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu redukce dat, potřebných pro popis sledovaného znaku. P ř í k l a d: Stav dopravní oblasti lze určovat na základě detektorů, umístěných v bĺızkosti křižovatek oblasti. Tyto detektory jsou většinou umístěny v každém dopravním pruhu a často v několika vzdálenostech od křižovatky. Je zřejmé, že takových měřících míst je v oblasti velké množství. Přitom ale, informace kterou nesou musí být závislá např. u dvou detektorů postavených za sebou jsou signály jen zpožděné. Naším cílem je redukovat skutečné detektory oblasti na menší počet fiktivních detektorů, které obdržíme kombinací skutečných detektorů. Přitom požadujeme, aby tyto fiktivní detektory nesly téměř stejnou informaci o stavu oblasti, jako detektory skutečné. V následujících odstavcích uvedeme dva možné způsoby jak zmíněnou redukci provést. Budeme se při nich opírat o rozklad matice pomocí vlastních a singulárních čísel. Proto nejprve stručně uvedeme ty výsledky, které budeme dále potřebovat. D e f i n i c e 11.1 (Rozklad pomocí vlastních čísel) Pro pozitivně definitní, symetrickou matici R existuje rozklad R = V L V, (37) L je diagonální matice s diagonálou tvořenou vlastními čísly matice R, V je čtvercová matice jejích sloupce jsou tvořeny vlastními vektory matice R, odpovídajícmi vlastním číslům matice L. Matice V je ortogonální, tj. platí pro ni V V = V V = I s jednotkovou maticí I. Z vlastnosti ortogonalita plyne, že platí V 1 = V V programu O c t a v e lze pro tento rozklad použít funkci [V,L]=eig(R). D e f i n i c e 11.2 (Rozklad pomocí singulárních čísel) Pro matici D typu N n existuje rozklad D = U S V, (38) U, resp. S, jsou ortogonální matice typu N N, resp. n n, S je matice typu N n, která má na hlavní diagonále tzv. singulární čísla matice D a jinak samé nuly. Pokud v matici S vynecháme nulové řádky a sloupce matic U a V, které by se v součinu potkali s nulami matice S, budou mít matice U, S a V rozměry N n, n n a n n. Ty nazýváme zkrácené vyjádření rozkladu. 42

V programu O c t a v e lze pro tento rozklad použít funkci [U,S,V]=svd(D). 11.1 Rozklad kovarianční matice První způsob, který uvedeme je založen na rozkladu výběrové kovarianční matice dat podle (37). V časových okamžicích t = 1, 2,, N měříme datový vektor d t = [d 1;t, d 2;t,, d n;t ], např. údaje z detektorů podle zmíněného příkladu. Měřené datové vektory sestavíme do datové matice D, resp., centované datové matice D c D = d 1 d 2. d N = d 1;1 d 2;1 d n;1 d 1;2 d 2;2 d n;2 d 1;N d 2;N d n;n, d je vektor výběrových průměrů d = 1 N Nt=1 d t. Dále určíme výběrovou kovarianční matici dat R = 1 n 1 kterou rozložíme podle (37) takto, resp., D c = N (d t d) (d t d) = 1 t=1 n 1 D cd c, R = V L V, V je matice typu n n, která má ve sloupcích vlastní vektory matice R, L je diagonální matice stupně n s vlastními čísly matice R na diagonále. Zavedeme transformaci dat g t = (d t d) V nebo maticově G = D c V, matice G má za řádky transformovaná data g t, t = 1, 2,, N. d 1 d d 2 d. d N d Snadno lze ukázat, že kovarianční matice transformovaných dat G je diagonální a na diagonále má vlastní čísla kovarianční matice R 1 n 1 G G = 1 n 1 V D cd c V = V RV = V (V LV )V = L, protože matice V je ortogonální, tj. platí V V = I, I je jednotková matice. Nová (transformovaná) data jsou tedy navzájem nezávislá a mají výběrové rozptyly rovny vlastním číslům matice R. 43,

Kovarianční matici dat (podobně jako rozptyl u regresní analýzy nebo analýzy rozptylu) chceme nyní vysvětlit. Protože transformované datové veličiny jsou nezávislé, vysvětlují kovarianční matici samostatně, každá zvlášt svým vlastním rozptylem. Pokud jsou datové veličiny závislé, projeví se to tím, že některé transformované veličiny budou mít rozptyly vzhledem k ostatním velmi malé. Tyto veličiny pak můžeme vynechat a pracovat jen s těmi, které měly rozptyl větší. Přitom většinou požadujeme, aby bylo vysvětleno např. 99% celé kovarianční matice. Prakticky postupujeme např. takto: 1. Vlastní čísla (prvky na diagonále matice L) uspořádáme podle velikosti od největšího k nejmenšímu. 2. Stejným způsobem, jako jsme přehazovali vlastní čísla, přeházime i vlastní vektory, tj. sloupce matice V. 3. Vlastní čísla normujeme tak, aby jejich součet byl roven jedné. 4. Postupně sčítáme normovaná vlastní čísla od největšího a hlídáme, kdy jejich součet překročí stanovenou hranici (např. 0.99). 5. Jako nové proměnné vezmeme ty transformované veličiny, jejichž rozptyly jsme v předchozím kroku posčítali. P ř í k l a d: Změřili jsme 1000 vzorků dopravních dat (intenzity a hustoty dopravního proudu ve strahovském tunelu). Každé měření zahrnovalo 5 hodnot. Určili jsme kovarianční matici dat R = 87.7 41.9 22.4 202.4 23.5 41.9 350.1 6.1 95.9 8.5 22.4 6.1 9.0 68.3 6.9 202.4 95.9 68.3 2194.0 53.7 23.5 8.5 6.9 53.7 10.6 Její rozklad R = V L V je L = 2222.2 0 0 0 0 0 348.8 0 0 0 0 0 73.6 0 0 0 0 0 4.2 0 0 0 0 0 2.6 V = 0.096 0.111 0.921 0.349 0.093 0.053 0.991 0.119 0.015 0.009 0.032 0.013 0.235 0.396 0.887 0.993 0.065 0.097 0.002 0.008 0.025 0.023 0.271 0.849 0.452 Normovaná vlastní čísla a jejich kumulativní součet jsou L norm = [0.975 0.024 0.001 3.5e 6 1.3e 6] a L cum = [0.975 0.999 1 1 1]. Z vektoru L cum je patrné, že pro pokrytí 99% celé kovarianční matice postačí uvažovat první dvě transformované proměnné. Označíme-li D c matici 1000 5 s původními centrovanými proměnnými d 1, d 5 ve sloupcích, G r matici 1000 2 vybraných transformovaných proměnných g r,1, g r,2 a matici 44

V r jako submatici matice V obsahující prvé dva sloupce (tj. vlastní vektory odpovídající vybraným vlastním číslům) bude platit G r = D c V r = [d c,1, d c,2, d c,3, d c,4, d c,5 ] 0.096 0.111 0.053 0.991 0.032 0.013 0.993 0.065 0.025 0.023 Odtud je také patrno, jak jsou původní proměnné kombinovány. g r,1 je tvořena převážně ze čtvrté a g r,2 z druhé původní veličiny. V tomto případě lze tedy místo s dvěma transformovanými veličinami pracovat s druhou a čtvrtou původní veličinou. Ostatní již mnoho nové informace nenesou. 11.2 Rozklad datové matice Jiný způsob, jak provést redukci dat přímo ve spojení s regresní analýzou těchto dat, je založen na rozkladu datové matice pomocí tzv. SVD (Singular Value Decomposition) rozkladu (38). Uvažujme regresi pro t = 1, 2,, N Y = y 1 y 2 y N y t = d t θ + e t nebo maticově Y = D θ + E, (39), D = d 1;1 d n,1.. d 1;N d n;n Datovou matici D typu N n rozložíme podle (38), θ = θ 1 θ 2 θ n, E = e 1 e 2 e N. D = U S V, (40) U, resp. V, jsou ortogonální matice typu N N, resp. n n, S je matice typu N n, která má na hlavní diagonále singulární čísla matice D a jinak nuly. Dosadíme-li tento rozklad do regresní rovnice (39), dostaneme Y = (U S) (V θ) + E, US = DV (protože V 1 = V - ortogonalita) a V θ = θ jsou modifikované parametry. Nyní je situace obdobná jako pro vlastní čísla kovarianční matice dat. Jsou-li datové veličiny závislé, budou některá singulární čísla malá a lze je nahradit nulami. Počet nenulových singulárních čísel označíme r. Jestliže v regresní rovnici vynecháme sloupce a řádky jednotlivých matic, které by po vynásobení byly stejně nulové, bude (ponecháme stejné názvy) U ortogonální matice typu N r, 45

S diagonální matice typu r r a V ortogonální matice typu r n. Vektor θ = V θ dimenze r představuje transformované parametry regrese a matice G = U S typu N r transformovaná data. S využitím rovnice (40) pro rozklad datové matice a skutečnosti, že matice V je ortogonální, a tedy platí V 1 = V, lze psát U S = D V. Matici transformovaných dat G lze tedy vyjádřit také jako transformaci původních dat D s transformační maticí V, tj. G = D V typu N r tedy s r < n proměnnými. Tento model lze odhadovat podle následujícího algoritmu: 1. Z naměřených dat sestavíme vektor Y a datovou matici D. 2. Matici D rozložíme: D = U S V. 3. Rozhodneme, která singulární čísla ponecháme (počet označíme r) a která zanedbáme. 4. Provedeme redukci matice V tak, že v ní ponecháme je r sloupců, které odpovídají nenulovým singulárním číslům. 5. Pro odhad modelu použijeme vektor Y a transformovanou datovou matici G. Pro odhad nebo predikci z dalších dat (pro t = N + 1, N + 2, ) lze předpokládat, že transformační matice V se příliš nemění a používat ji i dále. Občas je možno ji pro nová data přepočítat opět podle uvedeného algoritmu. 46