= x (1.1) Komentář [j1]: Odstaveček na webu Následující text je... prosím nahradit za tyto tři odstavce. Děkuji.

Podobné dokumenty
Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

Náhodný vektor a jeho charakteristiky

AVDAT Mnohorozměrné metody metody redukce dimenze

11 Analýza hlavních komponet

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Úvodem Dříve les než stromy 3 Operace s maticemi

Klasifikace a rozpoznávání. Extrakce příznaků

Poznámky k předmětu Aplikovaná statistika, 4. téma

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Poznámky k předmětu Aplikovaná statistika, 4. téma

Statistická analýza jednorozměrných dat

Základy maticového počtu Matice, determinant, definitnost

1 Linearní prostory nad komplexními čísly

Téma 22. Ondřej Nývlt

NÁHODNÝ VEKTOR. 4. cvičení

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Aplikovaná numerická matematika

I. D i s k r é t n í r o z d ě l e n í

Cvičná bakalářská zkouška, 1. varianta

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Pravděpodobnost a aplikovaná statistika

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

p(x) = P (X = x), x R,

EUKLIDOVSKÉ PROSTORY

Vlastní čísla a vlastní vektory

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

0.1 Úvod do lineární algebry

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

ALGEBRA. Téma 5: Vektorové prostory

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

Program SMP pro kombinované studium

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Analýza hlavních komponent

Vícerozměrné statistické metody

1 Projekce a projektory

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

Náhodné vektory a matice

ANALÝZA A KLASIFIKACE DAT

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

MATEMATIKA Maturitní témata společná část MZ základní úroveň (vychází z Katalogu požadavků MŠMT)

5. Lokální, vázané a globální extrémy

Numerické metody a programování

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Lineární algebra : Metrická geometrie

SVD rozklad a pseudoinverse

Matematika B101MA1, B101MA2

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Základy teorie pravděpodobnosti

Požadavky ke zkoušce

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ

Náhodné (statistické) chyby přímých měření

Normální rozložení a odvozená rozložení

4EK213 LINEÁRNÍ MODELY

Funkce a lineární funkce pro studijní obory

Vícerozměrná rozdělení

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

Singulární rozklad. Petr Tichý. 31. října 2013

6. Vektorový počet Studijní text. 6. Vektorový počet

1 Rozptyl a kovariance

Úlohy nejmenších čtverců

Diskrétní náhodná veličina

Regresní a korelační analýza

AVDAT Náhodný vektor, mnohorozměrné rozdělení

0.1 Úvod do lineární algebry

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan. 14.

PŘÍMKA A JEJÍ VYJÁDŘENÍ V ANALYTICKÉ GEOMETRII

Regresní a korelační analýza

Numerické metody a programování. Lekce 4

Chyby měření 210DPSM

Regresní analýza 1. Regresní analýza

Operace s maticemi. 19. února 2018

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Transkript:

Ordinační analýzy V této kapitole se seznámíme s jednotlivými metodami extrakce proměnných, jejichž cílem je transformace původních proměnných do menšího počtu nových proměnných, jak již bylo uvedeno v předchozí kapitole [odkaz na kapitolu 7.5]. Z metod extrakce proměnných si zde představíme analýzu hlavních komponent (PCA Principal Component Analysis), korespondenční analýzu (CA Correspondence Analysis), vícerozměrné škálování (MDS MultiDimensional Scaling) a faktorovou analýzu (FA Factor Analysis). Pokročilejším metodám extrakce proměnných, kterými je například analýza nezávislých komponent (ICA - Independent Component Analysis), je věnována samostatná kapitola [odkaz na kapitolu 0]. ento text bezprostředně navazuje na kapitolu pojednávající o metodách volby a výběru popisných proměnných, která se zabývá selekčními algoritmy [odkaz na kapitolu 7]. Základní znalostní předpoklady zůstávají tytéž jako u výše uvedené kapitoly, zejména znalosti základních operací s vektory a množinami jsou nevyhnutelné. Následující text je součástí učebních textů předmětu Bi8600 Vícerozměrné metody a Bi004 Analýza a klasifikace dat a je určen především pro studenty matematické biologie. Přínosem může být rovněž pro studenty medicínských a dalších biologických oborů - zejména botaniky, zoologie a antropologie. Pro předmět Bi8600 Vícerozměrné metody lze klást menší důraz na podkapitolu Odvození [odkaz na podkapitolu. této kapitoly], pro magisterský předmět Bi004 Analýza a klasifikace dat je však tato kapitola podstatná pro pochopení pozadí metody analýzy hlavních komponent. omentář [j]: Odstaveček na webu Následující text je... prosím nahradit za tyto tři odstavce. Děkuji.. Analýza hlavních komponent Analýza hlavních komponent (PCA - Principal Component Analysis) patří k základním metodám extrakce proměnných. Je často používaným nástrojem pro redukci počtu proměnných například před klasifikací dat, umožňuje však i vizualizaci vícerozměrných dat díky snížení počtu proměnných a v neposlední řadě slouží rovněž k odhalení skrytých (latentních) proměnných, které mohou napomoci interpretaci dat... Výstupy z výuky Student: zná principy analýzy hlavních komponent (PCA) a z toho plynoucích vlastností rozumí algoritmu PCA a umí vysvětlit důsledky vyplývající z použití PCA pro data různého charakteru.. Princip Představme si úlohu, kdy jsou reálné objekty popsány vektory ve dvourozměrném prostoru (se dvěma souřadnicemi x a x ), např. tak, jak je zobrazeno na obr.. Nyní se pokusme vyjádřit dané vektory v jiné souřadnicové soustavě, jejíž souřadnice y a y jsou dány lineární kombinací těch původních x a x. o znamená, že v tomto dvourozměrném případě platí y = a y = a x + a x + a x a = x a a a x.. x (.) - -

Důsledkem takovéto lineární transformace je, že nová sou- je řadnicová soustava (y, y ) oproti původní (x, x ) pouze otočená kolem počátku. Veli- na kost otočení bude závislá hodnotách parametrů a, a, a a a. Aby byla nová souřadni- cová soustava pravoúhlá (orto- gonální) ), stejně jako původní, je nutné, aby byl skalární součin transformačních vektorů a = (a, a ) a a = (a, a ) nulový. Je současně užitečné (nemá-li dojít k prodloužení, resp. zkrácení měřítka na Obr. Princip analýzy hlavních komponent osách), aby byly oba transformační vektory normované, tj. aby velikost jejich modulu byla jednotková. Příklad. Mějme v původním prostoru zobrazeném na obr. bod o souřadnicích x 0 = (4, ). Nová soustavaa nechť je určena transformačními vztahy y = 0,8x + 0,6 x ; y Ověřte ortogonalitu transformačních vztahů a určete souřadnice bodu x 0 v nové souřadni- cové soustavě. Řešení: Skalární součin transformač čních vektorů a.a = (a.a + a.a ) = [0,8.(-0,6)+0,6.0,8] = 0. ransformace je proto ortogonální. ransformační vektory jsou i normované, protože jejich moduly jsou rovny a = a = (0,8 + 0,6 ) / = ((-0,6) + 0,8 ) / / =. Souřadnice bodu x 0 = (4,) v nové souřadnicové soustavě jsou y = 0,8 4 + 0,6 =, +,8 = 5; y = 0,6 4 + 0,8 =,4 +,4 = 0. = 0,6x + 0,8x. Můžeme tedy psát y 0 = x 0 = (5, 0). Poznámka: Zřejmě je na tomto místě vhodné připomenout a zdůraznit, že poloha bodu x 0 se v daném prostoru nezměnila. Pouze jsme jeho polohu vyjádřili v jiných souřadnicích h. - -

Protože hodnota druhé souřadnice vektoru y 0 je nulová, jinými slovy bod leží na ose první transformované souřadnice, stačila by pro přesné vyjádření polohy bodu v nové souřadnicové soustavě pouze hodnota první souřadnice. oto je základ principu redukce počtu souřadnic založené na lineární transformaci souřadnic. Je-li bodů v prostoru více, nelze obecně očeká- v prostoru tak, jako jsou např. na obr. body x a x. Nemůžeme tedy očekávat, že bude pro vat, že by všechny ležely na přímce procházející počátkem, ale jsou nějak rozmístěny přesné vyjádření polohy všech bodů potřeba pouze jedna souřadnice. Můžeme se ale pokusit pootočitt původní soustavu tak, aby dané body v prostoru byly v novém redukovaném prostoru vyjádřeny jednou souřadnicí co nejlépe. o co nejlépe musí být vyjádřeno nějakým mate- matickým kritériem. V případě analýzy hlavních komponent je tím kritériem celková odchyl- mi- ka všech bodů/vektorů od redukované reprezentace, popsaná pomocí kritéria ve smyslu nimální střední kvadratické odchylky. Pokud bychom při dané transformaci souřadnicového systému (viz obr..) provedli redukci rozměru prostoru odstraněním souřadnice y, promítly by se oba původní zobrazené body x a x do pozice bodu y 0 x 0 a oproti původním pozicím obou těchto bodů by se jejich nový prů-. mět lišill o. o znamená, že střední kvadratická chyba by pro tyto dva body byla rovna Pokud bychom redukovali rozměr prostoru daný souřadnicí y, byla by odchylka původní polohy od nových průmětů y a y daná v obou případech hodnotou a střední kvadratická chyba by byla. Z geometrického srovnání z obr.. je zřejmé, že větší chyby se dopustíme odstraněním souřadnice y. Nyní zvažme častý případ, kdy jsou zpracovávaná data centrována, tj. od hodnot jejich souřadnic je odečtena jejich střední hodnota (obr.). Poznámka: Vždy a zejména při řešení klasifikačních úloh je třeba důkladně zvážit, zda centrování dat, tj. odečtení jejich střední hodnoty, neodstraní informaci, která je důležitá z hlediska cílů jejich zpracování. Souřadnice centrovaných vek- jsou y 0c = (0, 0), y c = (0, ) a y c torů v transformované soustavě = (0, -), což znamená, že hodnoty první souřadnice y jsou ve všech případech nulové (tedy i rozptyl je nulový) ). Body jsou rozloženy na transformované ose y. Z geometrické představy podle obr. vyplývá, že k přesné repre- bude zentaci bodů y 0c, y c a y c stačit souřadnice y, která popisuje data ve směru největšího rozptylu. o je ale závěr naprosto opačný, Obr. Princip analýzy hlavních komponent s centrovanou množinou bodů - -

než tomu bylo v původním zadání. Na druhé straně celkem logický změnila se data, změnil se i způsob jejich reprezentace. Jak by se dalo postupovat při určování nové, potencionálně redukovatelné souřadnicové soustavy? Vysvětleme si na kvazioptimálním iteračním postupu, který je sice názorný, nicméně nemusí vést k zcela nejlepšímu řešení. Prakticky jej lze použít v případě, kdy je datová množina příliš veliká. Pomocí zvoleného optimalizačního algoritmu používajícího dané kritérium nalezneme tu transformovanou souřadnici (komponentu), která nejlépe splňuje zvolené optimalizační kritérium. V příkladu. je to zjevně souřadnice y, u centrovaných dat je to souřadnice ve směru největšího rozptylu dat, tedy y. Po nalezení první hlavní komponenty je nalezena druhá, která nejlépe popisuje data ve smyslu minimální střední kvadratické odchylky po odstranění první komponenty a současně je k první komponentě kolmá (ortogonální). Algoritmus poté pokračuje, než jsou nalezeny všechny nové transformované souřadnice, přičemž sledujeme, zda už je či stále není splněna podmínka pro dostatečně malou chybu vyjádření původního vektoru. Globální optimum zaručuje algoritmus vycházející z tzv. arhunenovy-loevovy transformace nebo tzv. rozkladu na singulární hodnoty (SVD Singular Value Decomposition), případně rozklad na vlastní vektory a vlastní čísla, jehož teoretické zdůvodnění je popsáno v následující kapitole... Odvození Předpokládejme, že je dáno p-rozměrných (předpokládejme sloupcových) vektorů x k X p, k =,,,. Nyní aproximujme každý vektor x k lineární kombinací m ortonormálních vektorů e i (m p). edy platí y = e. (.) k c ki i i= oeficienty c ki lze považovat za velikost i-té souřadnice vektoru x k vyjádřeného v novém systému souřadnic s bází e i, i =,,, m, tj. platí c ki = x. e. (.) k i Volíme-li jako kritérium optimality zobrazení, jak jsme již předeslali, kritérium minimální střední kvadratické odchylky, pak musíme stanovit vztah pro určení kvadratické odchylky ε k původního vektoru x k od jeho aproximace y k. Nechť je Pak pomocí vztahů (.) a (.) je ε = x y. (.4) k k k k m ε = x c. (.5) k Střední kvadratická odchylka pro všechny vektory x k, k =,,, je i= ki - 4 -

m = ε k = xk ei k = k= i= k= ε x kxk ei (.6) a je závislá na volbě ortonormálního bázového systému e i, který je třeba zvolit tak, aby odchylka ε byla minimální. Diskrétní konečný rozvoj podle vztahu (.) s bázovým systémem e i, optimálním podle kritéria minimální střední kvadratické odchylky nazýváme diskrétní arhunenův - Loevův rozvoj. Aby byla střední kvadratická odchylka definovaná vztahem (.6) minimální, musí druhý člen na pravé straně uvedené rovnice nabývat maximální hodnoty (vzhledem k tomu, že první člen pravé strany uvedené rovnice je pro dané zadání úlohy konstantní). Je tedy nutné maximalizovat výraz m i= e κ( x) e, (.7) i i kde κ (x) = x kxk. (.8) k= je autokorelační matice řádu p. Z jejích vlastností (symetrická, semidefinitní) vyplývá, že její vlastní čísla λ i, i =,,, p jsou reálná, nezáporná a jim odpovídající vlastní vektory v i, i =,,, p jsou buď ortonormální, nebo je můžeme ortonormalizovat (v případě vícenásobných vlastních čísel). Uspořádáme-li vlastní čísla sestupně podle velikosti, tj. λ λ λ p 0 (.9) a podle tohoto seřazení očíslujeme i odpovídající vlastní vektory, pak lze dokázat, že výraz (.8) dosahuje maxima, jestliže platí a pro velikost maxima je e i = v i, i =,,, m (.0) max m i= m e κ( x) e = λ. (.) i i i= Pro minimální střední kvadratickou odchylku tedy platí ε m m p min = k λi = r( κ( x) ) λi = i k= i= i= i= m+ i x λ. (.) o znamená, že je rovna součtu těch vlastních čísel, jimž odpovídající vlastní vektory nebyly použity při aproximaci vektoru podle vztahu (.). Pro m = p je střední kvadratická odchylka nulová. Je-li vhodnější vektory x,, x k před aproximací centrovat, vypočítáme střední hodnotu - 5 -

µ = x (.) k= a místo s vektorem x k počítáme s jeho centrovanou verzí x x µ k k = k. Postup výpočtu arhunenova Loevova rozvoje se nemění, ale místo autokorelační matice používáme matici kovarianční ve tvaru Platí, že S ( x) = xk xk. (.4) k= κ ( x) = S( x) + µ. µ. (.5) Ortonormální systém e,, e m je v tom případě roven vlastním vektorům v,....., v m kovarianční matice S(x). Podobně v případě standardizovaných dat, tj. když jsou po odečtení střední hodnoty jednotlivé hodnoty proměnných ještě poděleny patřičnou směrodatnou odchylkou, pak místo autokorelační matice dostáváme korelační matici (tzn. matici hodnot Pearsonova korelačního koeficientu), které popisují vzájemné korelační vztahy mezi jednotlivými proměnnými. Závěry a důsledky vyplývající z výpočtů vlastních čísel a vektorů takovéto matice zůstávají v principu zachovány, jen je třeba si uvědomit, že se opět mění charakter výchozích dat..4. Geometrická interpretace Diskrétní arhunenův Loevův rozvoj a na něj navazující analýza hlavních komponent má velice názornou matematickou interpretaci (obr.). Nechť je původní vektorový prostor dvourozměrný a je dán veličinami x a x a vektor x má tedy v původní souřadnicové soustavě souřadnice x a x. Po transformaci souřadnicového systému, která je primárně určena vlastnostmi autokorelační matice množiny vektorů, jsou souřadnice uvedeného vektoru transformovány do hodnot y a y. Vzhledem k tomu, že je transformace souřadnicové soustavy lineární, jsou obě nové souřadnice určeny lineární kombinací souřadnic původních (obr.a,b,c), tedy y = a.x + a.x = cosα.x + sinα.x ; y = a.x + a.x = sinα.x + (cosα/cosα).x. (.6) Pokud nedojde k redukci rozměru vektorového prostoru, je vektor i v transformovaných souřadnicích vyjádřen zcela přesně. Omezíme-li ale počet souřadnic, vynechávají se nejdříve souřadnice, které způsobují menší střední kvadratickou chybu, jinými slovy méně přispívají k výsledné aproximaci, v zobrazeném případě je to souřadnice y. Hodnota chyby je určena právě těmito vynechanými souřadnicemi. Při nulovém rozptylu jsou vlastní čísla autokorelační matice κ(x) = µ.µ rovna λ = ǁµǁ a λ = = λ p = 0. Vlastní vektor v prochází právě bodem, ve kterém leží všechny vektory, a - 6 -

ostatní vektory v,, v p se volí tak, aby i nový souřadnicový systém byl ortonormální. Střední kvadratická odchylka je v tom případě rovna nule. Pokud data centrujeme (obr.d,e), počítáme s kovarianční maticí. Pak má transformovaná bázová soustava seřazeny osy ve směrech největších rozptylů (obr.d), které jsou v této nové souřadnicové soustavě číselně rovny vlastním číslům kovarianční matice. Vlastní čísla a vlastní vektory kovarianční matice jsou různé od vlastních čísel a vektorů autokorelační matice, proto se oba arhunenovy Loevovy rozvoje logicky liší. dyž originální data navíc vztáhneme ke směrodatné odchylce (standardizujeme), tj. odstraníme další možnou užitečnou informaci pro rozlišení dat, dále ztěžujeme výpočet vlastních čísel a vektorů matice korelačních koeficientů - množina vektorů získává kompaktnější, kulovitější tvar, stírá se rozdíl mezi vlivem jednotlivých nových souřadnic, z matematického hlediska autokorelační matice ztrácí dobrou podmíněnost, což v důsledku může vést i k výpočetním chybám (obr.f)..5. Vlastnosti arhunenův Loevův rozvoj má některé vlastnosti, které jej zvýhodňují před jinými typy transformací: při daném počtu m členů rozvoje poskytuje ze všech možných aproximací nejmenší kvadratickou odchylku; při použití kovarianční matice jsou nové transformované proměnné nekorelované; pokud se výskyt vektorů řídí normálním rozložením, zajišťuje nekorelovanost proměnných současně i nezávislost; členy rozvoje nepřispívají k aproximaci rovnoměrně, vliv každého z členů uspořádané posloupnosti aproximace se zmenšuje s jeho pořadím určeným velikostí odpovídajících vlastních čísel; změna požadavků na velikost střední kvadratické odchylky nevyžaduje přepočítat celý rozvoj, je třeba pouze změnit počet jeho členů. - 7 -

Obr. Geometrická interpretace arhunenova Loevova rozvoje.6. Zobecnění pro více tříd Až dosud jsme předpokládali, že množina aproximovaných vektorů je konečná a že vekto- ry nejsou, v případě klasifikační úlohy, rozděleny podle příslušnosti k jednotlivým klasifikač- proto se ním třídám. Pro klasifikační úlohy je však členění vektorů základním předpokladem, dále zabývejme, jak se změní podmínky, když vektory x budou patřit do R klasifikačních tříd, které budou vymezeny jako části spojitého vektorového prostoru X m. Výskyt vektorů v jed- p(x ω r ) a apriorní pravděpodob bnost klasifikačních tříd bude P(ωω r ), r =,,, R. notlivých klasifikačních třídách ω r bude popsán podmíněnými hustotami pravděpodobnosti Za těchto podmínek bude autokorelační matice κ( (x) definována vztahem R = κ( ( x ) P( ω ). r= r p X x. x. p( x ω ) dx = r p X x. x. p( x) dx (.7) a kovarianční matice buď podle předpisu - 8 -

S ( x ) R = r= Obr.4 Souřadnicové soustavy pro výpočet kova- rianční matice P ( ωr ). ( x µ r ).( x µ r ). p( xωr ) d x, p X (.8) kde nebo vztahem µ = r X x. p( xω ) d x, r =,,..., R, p r (.9) 0 S ( x) R = r= P( ω ). ( x µ ).( x µ ). p( xωr ) dx = = ( x µ ).( x µ ). p( x )dx, r p X p X (.0) když střední hodnota µ je vážený průměr středních hodnot (obr.4a), tj. µ R = r= P ( ω ). x. p( xω ) dx = r p X r p p X x. p ( x) dx. určených podle vztahu (.9) (.) Výpočet kovarianční matice podle vztahu (.8) bere ohled na střední hodnoty vektorů v jednotlivých klasifikačních třídách, vektory ze všech klasifikačních tříd se centrují podle středních hodnot vektorů v jednotlivých třídách (obr.4b). lasifikační třídy se tedy po vycentos. Zato rování mohou rozlišit pouze podle rozptylu ve směru jednotlivých souřadnicových jsou transformované proměnné zcela nekorelované. Naopak výpočet kovarianční matice podle vztahu (.0) centruje vektory podle celkové průměrné hodnoty, neodstraňuje vliv středních hodnot vektorů v jednotlivých klasifikačních třídách (obr.4c), a je proto lépe použít této defi- nice v těch případech, kdy jsou střední hodnoty výrazně odlišné a nesou tak významnou část - 9 -

informace o klasifikační úloze..7. Příklady ato podkapitola je věnována ukázkovým řešením čtyř příkladů tý- kající se analýzy hlavních komponent..7.. Příklad Předpokládejme, že množinu vekvektory Obr.5 Zadání a řešení příkladu.7. torů X tvoří dva x = (,, ) a x = (,, ) (viz obr.5). Pomocí arhunenovaa Loevova rozvoje najděme novou souřadnicovou soustavu, která umožní popsat oba vektory s minimální střední kvadratickou odchylkou. Řešení: Jak lze usoudit z elementárního znění zadání a případně i ověřit z grafického vyjádření na obr.5, oba zadané vektory leží přesně na přímce dané směrovým vektorem (,, ). Proto by tento vektor měl být první hlavní komponentou, další dvě souřadnice již nejsou pro vyjádření obou zadaných vektorů podstatné. Ověřme nyní tento intuitivní závěr výpočtem. Dle vztahu (.8) pro výpočet autokorelační matice máme,5,5,5 κ = (.. x x + x x ) =. ( ) +. ( ) =,5,5,5.,5,5,5 Autokorelační matice o rozměru x má všechny tři řádky stejné, tj. jsou lineárně závislé. Vlastní čísla λ i, která vypočítáme ze vztahu,5 λ,5,5 det,5,5 λ,5 = 0,5,5,5 λ a tedy (,5 - λ) +,5 +,5.,5.(,5 - λ) = 0 λ 7,5λ = 0 jsou λ = 7,5 a dvě násobná λ, = 0. Protože hodnota vlastního čísla určuje střední kvadratickou chybu vyjádření daného vektoznamená ru při odstranění vlastnímu číslu odpovídající souřadnice (dané vlastním vektorem), to, že i když odstraníme souřadnice dané vlastními vektory odpovídajícími vlastním číslům λ a λ a použijeme pouze souřadnici definovanou vlastním vektorem náležejícím číslu λ, jsou oba vektory x a x vyjádřeny naprosto přesně. Z cvičných důvodů ale spočítejme směry všech tří vlastních vektorů y i, i=,,, které ur- číme ze vztahu - 0 -

[κκ - λ.i].y = 0. Pro λ = 7,5 dostáváme lineární soustavu tří rovnic 5y +,5y +,,5y která obsahuje pouze dvě lineárně nezávislé rovnice a tedy její parametrick ké řešení je y + y y = ; y = y a y = t. Při volbě parametru t = odpovídá vlastnímu číslu λ vlastní vektor y = (,, ), jak jsme usoudilii na základě geometrického rozboru úlohy. Pro vlastní čísla λ, = 0 vypadá definiční soustavaa rovnic následovně,5y +,5 y +,,5y = 0,5y +,5 y +,,5y = 0. o znamená, že dvě rovnice jsou lineárně závislé a její parametrické řešení je y = - y - y ; y = t a y = u. Parametry t a u volíme tak, aby vlastní vektory byly navzájem ortogonální í, pro y např. t = a u =, pak y = (-,, ) a pro y např. t = - a u = a tedy y = (0, -, ). V tom případě jsou všechny tři vlastní vek- vzá- tory navzájem ortogonální, každé jejich jemné skalární součty jsou rovny nule. Jak už jsme uvedli dříve, odstraněním souřadnic daných vlastními vektory y a y a ponecháním pouze souřadnice definované vlastním vektorem y se nedopustíme žádné chyby ve vyjádření zadaných vektorů x a x Obr.6 Prostorová lokalizace vektorů x a x (oba vektory leží na souřadnicové ose dané vektorem y a protoo také obě vlastní čísla λ = λ = 0). Jak by vypadalaa situace v případě, že bychom odstranili souřadnici y? Protože body x a x leží na vrcholechh krychlí s hranami o délce, resp. protilehlých k počátku (obr.6), je je- tj. d = v případě vektoru x, resp. d = v případě vektoru x. Protože je nová souřadni- cová soustava ortogonální, promítaly by se oba vektory při odstranění osy y do počátku. A jich vzdálenost od počátku a tím i souřadnice ve směru y rovna délce prostorové úhlopříčky, konečně, vzhledem k tomu, že chybu popisu vektorů ε vyjadřujeme pomocí střední kvadra- tické odchylky, je tato chyba rovna což je právě hodnota λ.,5 y,5 y,5y 5y +,5y +,5 y +,,5y 5y +,,5y = 0; = 0; = 0, d ε = ( + d ) = ( + ) = 7,5, = 0 - -

.7.. Příklad Určete pomocí arhunenova-loevova rozvoje novou souřadnicovou soustavu pro situaci znázorněnou na obr., tj. pro body x 0 = (4; ), x = (,4;,8) a x = (4,6;,), která umožní popsat oba vektory s minimální střední kvadratickou odchylkou. Řešení: Autokorelační funkce pro danou množinu vektorů je κ = ( x0. x0 + x. x + x. x ) = 4,4 4,6 6,4,68 =. ( 4 ) +. (,4,8) +. ( 4,6,) =.,8,,68 9,4667 Vlastní čísla λ i, která vypočítáme ze vztahu 6,4 λ,68 det = 0,68 9,4667 λ a tedy λ 5,667λ+6,667 = 0, jsou λ = 5 a λ = 0,667. Pro λ = 5 dostáváme lineární soustavu dvou rovnic 8,76 y +,68y = 0;,68y 5,57 y = 0. 4 Rovnice jsou lineárně závislé, proto je y = y; y = t. Při volbě y = je hodnota y = 4, což představuje směrový vlastní vektor y = (4, ) odpovídající souřadnici y v obr.. Pro λ = 0667 je soustava rovnic 5,57y +,68y = 0;,68y + 8,76y = 0. Při srovnání koeficientů v obou soustavách rovnic - hodnoty jsou týž, pouze v inverzním pořadí. Proto jsou souřadnice opět lineárně závislé y = y; y = t. Při volbě y = -4 4 je y =. o zase reprezentuje vlastní vektor y = (, -4), který má týž směr jako souřadnice y v obr.. Pokud odstraníme osu y a ponecháme osu y, je střední kvadratická chyba ε (0 + + ) = = = 0,667. edy hodnota právě rovná vlastnímu číslu λ. Podobně při (5 + 5 + 5 ) 75 odstranění souřadnicové osy y je chyba rovna ε = = = 5 = λ..7.. Příklad Určete pomocí arhunenova-loevova rozvoje novou souřadnicovou soustavu pro centrované body podle obr., tj. pro body x 0 = (0; 0), x = (-0,6; 0,8) a x = (0,6; -0,8), která umožní popsat oba vektory s minimální střední kvadratickou odchylkou. Řešení: - -

Autokorelační funkce pro danou množinu vektorů je κ = ( x0. x0 + x. x + x. x ) = 0 0,6 0,6 0,4 =. 0 +. 0,6 0,8 +. 0,6 0,8 = 0 0,8 0,8-0, - 0, 0,4667 ( ) ( ) ( ). Vlastní čísla λ i, která vypočítáme ze vztahu 0,4 λ 0, det = 0 0, 0,4667 λ a tedy λ 0,667λ = 0, jsou λ = 0a λ = 0,667. Pro λ = 0 je soustava rovnic 0,4y 0,y = 0; 0,y + 0,4667y = 0. Při srovnání koeficientů v obou soustavách rovnic - hodnoty jsou týž, pouze v inverzním 4 pořadí. Proto jsou souřadnice opět lineárně závislé a platí y = y; y = t. Při volbě y = je y = 4. o reprezentuje vlastní vektor y = (4, ), který má týž směr jako souřadnice y v obr. i obr.. Pro λ = 0,667 dostáváme lineární soustavu dvou rovnic 0,4667 y 0, y = 0; 0, y 0,4 y = 0. Rovnice jsou lineárně závislé, proto je y = y; y = t. Při volbě y = 4 je hodnota 4 y = -, což představuje směrový vlastní vektor y = (-, 4) odpovídající souřadnici y v obr. i obr.. Pokud odstraníme osu y a ponecháme osu y je střední kvadratická chyba ε (0 + + ) = = = 0,667. edy hodnota právě rovná vlastnímu číslu λ. Podobně při (0 + 0 + 0 ) odstranění souřadnicové osy y je chyba rovna ε = = 0 = λ..7.4. Příklad 4 Bylo provedeno měření výšky (v cm) a váhy (v kg) u pěti dětí. Naměřené hodnoty byly zaznamenány do matice : 0 6 05 8 0 4 98 9 6. U tohoto datového souboru proveďte analýzu hlavních komponent. - -

Řešení: U analýzy hlavních komponent potřebujeme nejprve spočítat kovarianční matici s s s s. Pro výpočet kovarianční matice potřebujeme znát průměrnou výšku a váhu u 5 dětí: x 00 x 0050989 6846 Jednotlivé prvky kovarianční matice poté spočítáme následujícím způsobem: Rozptyl výšky: s x x x x x x x x x x 000 0500 000 9800 900 59449 88 Rozptyl váhy: s x x x x x x x x x x 6 8 4 6 59444 5 70476 ovariance výšky a váhy: s s x x x x x x x x x x x x x x x x x x x x 0006 05008000498009006 556405 446 ovarianční matice je tedy: s s 6 s s 6 76. Nyní spočítáme vlastní čísla a vlastní vektory kovarianční matice tzn., spočítáme následující determinant: 6 6 76 Vypočteme charakteristický polynom: 766 8776 96 98576 A jeho kořeny, které odpovídají vlastním číslům: 84 4-4 -

Následně spočítáme vlastní vektor odpovídající prvnímu vlastnímu číslu 84: 84 6 6 6 ~6 ~6 6 7684 6 8 6 6 ~4,5 0 0 v ; 4,5 v v 0 v, ; např. pro 4,5 pak dostáváme: 4,5, který je po normalizaci roven,,, 0,69 0,976. ontrola, že vektor má jednotkovou délku: 0,69 0,976. Spočítáme vlastní vektor odpovídající druhému vlastnímu číslu 4: 4 6 6 6 4,5 ~8 ~6 ~ 6 764 6 6 6 6 0 0 v ; v 4,5 v 0 v 4,5; např. pro pak dostáváme: 4,5, který je po normalizaci roven,, má jednotkovou délku: 0,976 0,69., 0,976 0,69. ontrola, že vektor Vlastní vektory můžeme uspořádat do matice 0,69 0,976, přičemž pořadí 0,976 0,69 vlastních vektorů odpovídá pořadí vlastních čísel seřazených od největšího k nejmenšímu. Nyní vyjádříme hlavní komponenty odpovídající vlastním číslům seřazeným od největšího k nejmenšímu hlavní komponenty jsou lineární kombinace původních proměnných, přičemž koeficienty jsou souřadnice příslušného vlastního vektoru:. hlavní komponenta: 0,69 x 0,976 x (pro 84). hlavní komponenta: 0,976 x 0,69 x (pro 4) Výpočet procent vyčerpané variability:. hlavní komponenta vyčerpává:. hlavní komponenta vyčerpává: Vyčerpanou variabilitu můžeme znázornit i pomocí sutinového grafu: 0,99 (tzn., 9,9% variability v datech) 0,0707 (tzn., 7,07% variability v datech) - 5 -

% vyčerpané variability 00% 50% 9,9% 7,% 0% Pořadí vlastního čísla Dále spočítáme korelace hlavních komponent s původními proměnnými:,,,,,,,, 0,674 0,998 0,7787 0,06 První hlavní je vysoce korelována s váhou a středně korelována s výškou. Druhá hlavní komponenta je středně záporně korelována s výškou. Na závěr vypočítáme nové souřadnice původních bodů po transformaci pomocí obou hlavních komponent spočítaných pomocí PCA: 0 6 05 8 0,69 0,976 0 4 98 9 6 0,976 0,69 0 0,696 0,976 0 0,9766 0,69 7,5 95, 05 0,698 0,976 05 0,9768 0,69 40, 98,6 0 0,694 0,976 0 0,9764 0,696, 9,4 98 0,69 0,976 98 0,976 0,69 4,7 90,8 9 0,696 0,976 9 0,9766 0,69 6,0 89,5 Souřadnice subjektů můžeme přímo získat i z hlavních komponent např. pro první subjekt: y 0,69 x 0,976 x 0,69 00,976 67,5-6 -

y 0,976 x 0,69 x 0,976 00,69 695, Původní data i data po transformaci pomocí PCA si znázorníme: Data v původním prostoru Data v prostoru dvou hlavních komponent 50-88 Váha 40 0 0 0. hlavní komponenta (7,%) -90-9 -94-96 -98 0 90 95 00 05 0 Výška -00 0 0 40 50 60 70. hlavní komponenta (9,9%) Pokud bychom k transformaci použili pouze první vlastní vektor, získáváme data v prostoru první hlavní komponenty: Data v prostoru první hlavní komponenty 0 0 40 50 60 70. hlavní komponenta (9,9%).8. Literatura [] Haruštiaková, D., Jarkovský, J., Littnerová, S., Dušek, L. Vícerozměrné statistické metody v biologii. Akademické nakladatelství CERM, s.r.o., Brno. (0) [] Holčík, J. Analýza a klasifikace dat. Akademické nakladatelství CERM, s.r.o., Brno. (0) [] Jolliffe, I.. Principal Component Analysis. Springer, New York (00).. orespondenční analýza Již převedeno do elektronické podoby. - 7 -

. Vícerozměrné škálování Již převedeno do elektronické podoby. 4. Faktorová analýza Bude posláno separátně. Obsah Ordinační analýzy... - -. Analýza hlavních komponent... - -.. Výstupy z výuky... - -.. Princip... - -.. Odvození... - 4 -.4. Geometrická interpretace... - 6 -.5. Vlastnosti... - 7 -.6. Zobecnění pro více tříd... - 8 -.7. Příklady... - 0 -.7.. Příklad... - 0 -.7.. Příklad... - -.7.. Příklad... - -.7.4. Příklad 4... - -.8. Literatura... - 7 -. orespondenční analýza... - 7 -. Vícerozměrné škálování... - 8-4. Faktorová analýza... - 8 - - 8 -