= x (1.1) Komentář [j1]: Odstaveček na webu Následující text je... prosím nahradit za tyto tři odstavce. Děkuji.

Transkript

1 Ordinační analýzy V této kapitole se seznámíme s jednotlivými metodami extrakce proměnných, jejichž cílem je transformace původních proměnných do menšího počtu nových proměnných, jak již bylo uvedeno v předchozí kapitole [odkaz na kapitolu 7.5]. Z metod extrakce proměnných si zde představíme analýzu hlavních komponent (PCA Principal Component Analysis), korespondenční analýzu (CA Correspondence Analysis), vícerozměrné škálování (MDS MultiDimensional Scaling) a faktorovou analýzu (FA Factor Analysis). Pokročilejším metodám extrakce proměnných, kterými je například analýza nezávislých komponent (ICA - Independent Component Analysis), je věnována samostatná kapitola [odkaz na kapitolu 0]. ento text bezprostředně navazuje na kapitolu pojednávající o metodách volby a výběru popisných proměnných, která se zabývá selekčními algoritmy [odkaz na kapitolu 7]. Základní znalostní předpoklady zůstávají tytéž jako u výše uvedené kapitoly, zejména znalosti základních operací s vektory a množinami jsou nevyhnutelné. Následující text je součástí učebních textů předmětu Bi8600 Vícerozměrné metody a Bi004 Analýza a klasifikace dat a je určen především pro studenty matematické biologie. Přínosem může být rovněž pro studenty medicínských a dalších biologických oborů - zejména botaniky, zoologie a antropologie. Pro předmět Bi8600 Vícerozměrné metody lze klást menší důraz na podkapitolu Odvození [odkaz na podkapitolu. této kapitoly], pro magisterský předmět Bi004 Analýza a klasifikace dat je však tato kapitola podstatná pro pochopení pozadí metody analýzy hlavních komponent. omentář [j]: Odstaveček na webu Následující text je... prosím nahradit za tyto tři odstavce. Děkuji.. Analýza hlavních komponent Analýza hlavních komponent (PCA - Principal Component Analysis) patří k základním metodám extrakce proměnných. Je často používaným nástrojem pro redukci počtu proměnných například před klasifikací dat, umožňuje však i vizualizaci vícerozměrných dat díky snížení počtu proměnných a v neposlední řadě slouží rovněž k odhalení skrytých (latentních) proměnných, které mohou napomoci interpretaci dat... Výstupy z výuky Student: zná principy analýzy hlavních komponent (PCA) a z toho plynoucích vlastností rozumí algoritmu PCA a umí vysvětlit důsledky vyplývající z použití PCA pro data různého charakteru.. Princip Představme si úlohu, kdy jsou reálné objekty popsány vektory ve dvourozměrném prostoru (se dvěma souřadnicemi x a x ), např. tak, jak je zobrazeno na obr.. Nyní se pokusme vyjádřit dané vektory v jiné souřadnicové soustavě, jejíž souřadnice y a y jsou dány lineární kombinací těch původních x a x. o znamená, že v tomto dvourozměrném případě platí y = a y = a x + a x + a x a = x a a a x.. x (.) - -

2 Důsledkem takovéto lineární transformace je, že nová sou- je řadnicová soustava (y, y ) oproti původní (x, x ) pouze otočená kolem počátku. Veli- na kost otočení bude závislá hodnotách parametrů a, a, a a a. Aby byla nová souřadni- cová soustava pravoúhlá (orto- gonální) ), stejně jako původní, je nutné, aby byl skalární součin transformačních vektorů a = (a, a ) a a = (a, a ) nulový. Je současně užitečné (nemá-li dojít k prodloužení, resp. zkrácení měřítka na Obr. Princip analýzy hlavních komponent osách), aby byly oba transformační vektory normované, tj. aby velikost jejich modulu byla jednotková. Příklad. Mějme v původním prostoru zobrazeném na obr. bod o souřadnicích x 0 = (4, ). Nová soustavaa nechť je určena transformačními vztahy y = 0,8x + 0,6 x ; y Ověřte ortogonalitu transformačních vztahů a určete souřadnice bodu x 0 v nové souřadni- cové soustavě. Řešení: Skalární součin transformač čních vektorů a.a = (a.a + a.a ) = [0,8.(-0,6)+0,6.0,8] = 0. ransformace je proto ortogonální. ransformační vektory jsou i normované, protože jejich moduly jsou rovny a = a = (0,8 + 0,6 ) / = ((-0,6) + 0,8 ) / / =. Souřadnice bodu x 0 = (4,) v nové souřadnicové soustavě jsou y = 0, ,6 =, +,8 = 5; y = 0, ,8 =,4 +,4 = 0. = 0,6x + 0,8x. Můžeme tedy psát y 0 = x 0 = (5, 0). Poznámka: Zřejmě je na tomto místě vhodné připomenout a zdůraznit, že poloha bodu x 0 se v daném prostoru nezměnila. Pouze jsme jeho polohu vyjádřili v jiných souřadnicích h. - -

3 Protože hodnota druhé souřadnice vektoru y 0 je nulová, jinými slovy bod leží na ose první transformované souřadnice, stačila by pro přesné vyjádření polohy bodu v nové souřadnicové soustavě pouze hodnota první souřadnice. oto je základ principu redukce počtu souřadnic založené na lineární transformaci souřadnic. Je-li bodů v prostoru více, nelze obecně očeká- v prostoru tak, jako jsou např. na obr. body x a x. Nemůžeme tedy očekávat, že bude pro vat, že by všechny ležely na přímce procházející počátkem, ale jsou nějak rozmístěny přesné vyjádření polohy všech bodů potřeba pouze jedna souřadnice. Můžeme se ale pokusit pootočitt původní soustavu tak, aby dané body v prostoru byly v novém redukovaném prostoru vyjádřeny jednou souřadnicí co nejlépe. o co nejlépe musí být vyjádřeno nějakým mate- matickým kritériem. V případě analýzy hlavních komponent je tím kritériem celková odchyl- mi- ka všech bodů/vektorů od redukované reprezentace, popsaná pomocí kritéria ve smyslu nimální střední kvadratické odchylky. Pokud bychom při dané transformaci souřadnicového systému (viz obr..) provedli redukci rozměru prostoru odstraněním souřadnice y, promítly by se oba původní zobrazené body x a x do pozice bodu y 0 x 0 a oproti původním pozicím obou těchto bodů by se jejich nový prů-. mět lišill o. o znamená, že střední kvadratická chyba by pro tyto dva body byla rovna Pokud bychom redukovali rozměr prostoru daný souřadnicí y, byla by odchylka původní polohy od nových průmětů y a y daná v obou případech hodnotou a střední kvadratická chyba by byla. Z geometrického srovnání z obr.. je zřejmé, že větší chyby se dopustíme odstraněním souřadnice y. Nyní zvažme častý případ, kdy jsou zpracovávaná data centrována, tj. od hodnot jejich souřadnic je odečtena jejich střední hodnota (obr.). Poznámka: Vždy a zejména při řešení klasifikačních úloh je třeba důkladně zvážit, zda centrování dat, tj. odečtení jejich střední hodnoty, neodstraní informaci, která je důležitá z hlediska cílů jejich zpracování. Souřadnice centrovaných vek- jsou y 0c = (0, 0), y c = (0, ) a y c torů v transformované soustavě = (0, -), což znamená, že hodnoty první souřadnice y jsou ve všech případech nulové (tedy i rozptyl je nulový) ). Body jsou rozloženy na transformované ose y. Z geometrické představy podle obr. vyplývá, že k přesné repre- bude zentaci bodů y 0c, y c a y c stačit souřadnice y, která popisuje data ve směru největšího rozptylu. o je ale závěr naprosto opačný, Obr. Princip analýzy hlavních komponent s centrovanou množinou bodů - -

4 než tomu bylo v původním zadání. Na druhé straně celkem logický změnila se data, změnil se i způsob jejich reprezentace. Jak by se dalo postupovat při určování nové, potencionálně redukovatelné souřadnicové soustavy? Vysvětleme si na kvazioptimálním iteračním postupu, který je sice názorný, nicméně nemusí vést k zcela nejlepšímu řešení. Prakticky jej lze použít v případě, kdy je datová množina příliš veliká. Pomocí zvoleného optimalizačního algoritmu používajícího dané kritérium nalezneme tu transformovanou souřadnici (komponentu), která nejlépe splňuje zvolené optimalizační kritérium. V příkladu. je to zjevně souřadnice y, u centrovaných dat je to souřadnice ve směru největšího rozptylu dat, tedy y. Po nalezení první hlavní komponenty je nalezena druhá, která nejlépe popisuje data ve smyslu minimální střední kvadratické odchylky po odstranění první komponenty a současně je k první komponentě kolmá (ortogonální). Algoritmus poté pokračuje, než jsou nalezeny všechny nové transformované souřadnice, přičemž sledujeme, zda už je či stále není splněna podmínka pro dostatečně malou chybu vyjádření původního vektoru. Globální optimum zaručuje algoritmus vycházející z tzv. arhunenovy-loevovy transformace nebo tzv. rozkladu na singulární hodnoty (SVD Singular Value Decomposition), případně rozklad na vlastní vektory a vlastní čísla, jehož teoretické zdůvodnění je popsáno v následující kapitole... Odvození Předpokládejme, že je dáno p-rozměrných (předpokládejme sloupcových) vektorů x k X p, k =,,,. Nyní aproximujme každý vektor x k lineární kombinací m ortonormálních vektorů e i (m p). edy platí y = e. (.) k c ki i i= oeficienty c ki lze považovat za velikost i-té souřadnice vektoru x k vyjádřeného v novém systému souřadnic s bází e i, i =,,, m, tj. platí c ki = x. e. (.) k i Volíme-li jako kritérium optimality zobrazení, jak jsme již předeslali, kritérium minimální střední kvadratické odchylky, pak musíme stanovit vztah pro určení kvadratické odchylky ε k původního vektoru x k od jeho aproximace y k. Nechť je Pak pomocí vztahů (.) a (.) je ε = x y. (.4) k k k k m ε = x c. (.5) k Střední kvadratická odchylka pro všechny vektory x k, k =,,, je i= ki - 4 -

5 m = ε k = xk ei k = k= i= k= ε x kxk ei (.6) a je závislá na volbě ortonormálního bázového systému e i, který je třeba zvolit tak, aby odchylka ε byla minimální. Diskrétní konečný rozvoj podle vztahu (.) s bázovým systémem e i, optimálním podle kritéria minimální střední kvadratické odchylky nazýváme diskrétní arhunenův - Loevův rozvoj. Aby byla střední kvadratická odchylka definovaná vztahem (.6) minimální, musí druhý člen na pravé straně uvedené rovnice nabývat maximální hodnoty (vzhledem k tomu, že první člen pravé strany uvedené rovnice je pro dané zadání úlohy konstantní). Je tedy nutné maximalizovat výraz m i= e κ( x) e, (.7) i i kde κ (x) = x kxk. (.8) k= je autokorelační matice řádu p. Z jejích vlastností (symetrická, semidefinitní) vyplývá, že její vlastní čísla λ i, i =,,, p jsou reálná, nezáporná a jim odpovídající vlastní vektory v i, i =,,, p jsou buď ortonormální, nebo je můžeme ortonormalizovat (v případě vícenásobných vlastních čísel). Uspořádáme-li vlastní čísla sestupně podle velikosti, tj. λ λ λ p 0 (.9) a podle tohoto seřazení očíslujeme i odpovídající vlastní vektory, pak lze dokázat, že výraz (.8) dosahuje maxima, jestliže platí a pro velikost maxima je e i = v i, i =,,, m (.0) max m i= m e κ( x) e = λ. (.) i i i= Pro minimální střední kvadratickou odchylku tedy platí ε m m p min = k λi = r( κ( x) ) λi = i k= i= i= i= m+ i x λ. (.) o znamená, že je rovna součtu těch vlastních čísel, jimž odpovídající vlastní vektory nebyly použity při aproximaci vektoru podle vztahu (.). Pro m = p je střední kvadratická odchylka nulová. Je-li vhodnější vektory x,, x k před aproximací centrovat, vypočítáme střední hodnotu - 5 -

6 µ = x (.) k= a místo s vektorem x k počítáme s jeho centrovanou verzí x x µ k k = k. Postup výpočtu arhunenova Loevova rozvoje se nemění, ale místo autokorelační matice používáme matici kovarianční ve tvaru Platí, že S ( x) = xk xk. (.4) k= κ ( x) = S( x) + µ. µ. (.5) Ortonormální systém e,, e m je v tom případě roven vlastním vektorům v,....., v m kovarianční matice S(x). Podobně v případě standardizovaných dat, tj. když jsou po odečtení střední hodnoty jednotlivé hodnoty proměnných ještě poděleny patřičnou směrodatnou odchylkou, pak místo autokorelační matice dostáváme korelační matici (tzn. matici hodnot Pearsonova korelačního koeficientu), které popisují vzájemné korelační vztahy mezi jednotlivými proměnnými. Závěry a důsledky vyplývající z výpočtů vlastních čísel a vektorů takovéto matice zůstávají v principu zachovány, jen je třeba si uvědomit, že se opět mění charakter výchozích dat..4. Geometrická interpretace Diskrétní arhunenův Loevův rozvoj a na něj navazující analýza hlavních komponent má velice názornou matematickou interpretaci (obr.). Nechť je původní vektorový prostor dvourozměrný a je dán veličinami x a x a vektor x má tedy v původní souřadnicové soustavě souřadnice x a x. Po transformaci souřadnicového systému, která je primárně určena vlastnostmi autokorelační matice množiny vektorů, jsou souřadnice uvedeného vektoru transformovány do hodnot y a y. Vzhledem k tomu, že je transformace souřadnicové soustavy lineární, jsou obě nové souřadnice určeny lineární kombinací souřadnic původních (obr.a,b,c), tedy y = a.x + a.x = cosα.x + sinα.x ; y = a.x + a.x = sinα.x + (cosα/cosα).x. (.6) Pokud nedojde k redukci rozměru vektorového prostoru, je vektor i v transformovaných souřadnicích vyjádřen zcela přesně. Omezíme-li ale počet souřadnic, vynechávají se nejdříve souřadnice, které způsobují menší střední kvadratickou chybu, jinými slovy méně přispívají k výsledné aproximaci, v zobrazeném případě je to souřadnice y. Hodnota chyby je určena právě těmito vynechanými souřadnicemi. Při nulovém rozptylu jsou vlastní čísla autokorelační matice κ(x) = µ.µ rovna λ = ǁµǁ a λ = = λ p = 0. Vlastní vektor v prochází právě bodem, ve kterém leží všechny vektory, a - 6 -

7 ostatní vektory v,, v p se volí tak, aby i nový souřadnicový systém byl ortonormální. Střední kvadratická odchylka je v tom případě rovna nule. Pokud data centrujeme (obr.d,e), počítáme s kovarianční maticí. Pak má transformovaná bázová soustava seřazeny osy ve směrech největších rozptylů (obr.d), které jsou v této nové souřadnicové soustavě číselně rovny vlastním číslům kovarianční matice. Vlastní čísla a vlastní vektory kovarianční matice jsou různé od vlastních čísel a vektorů autokorelační matice, proto se oba arhunenovy Loevovy rozvoje logicky liší. dyž originální data navíc vztáhneme ke směrodatné odchylce (standardizujeme), tj. odstraníme další možnou užitečnou informaci pro rozlišení dat, dále ztěžujeme výpočet vlastních čísel a vektorů matice korelačních koeficientů - množina vektorů získává kompaktnější, kulovitější tvar, stírá se rozdíl mezi vlivem jednotlivých nových souřadnic, z matematického hlediska autokorelační matice ztrácí dobrou podmíněnost, což v důsledku může vést i k výpočetním chybám (obr.f)..5. Vlastnosti arhunenův Loevův rozvoj má některé vlastnosti, které jej zvýhodňují před jinými typy transformací: při daném počtu m členů rozvoje poskytuje ze všech možných aproximací nejmenší kvadratickou odchylku; při použití kovarianční matice jsou nové transformované proměnné nekorelované; pokud se výskyt vektorů řídí normálním rozložením, zajišťuje nekorelovanost proměnných současně i nezávislost; členy rozvoje nepřispívají k aproximaci rovnoměrně, vliv každého z členů uspořádané posloupnosti aproximace se zmenšuje s jeho pořadím určeným velikostí odpovídajících vlastních čísel; změna požadavků na velikost střední kvadratické odchylky nevyžaduje přepočítat celý rozvoj, je třeba pouze změnit počet jeho členů

8 Obr. Geometrická interpretace arhunenova Loevova rozvoje.6. Zobecnění pro více tříd Až dosud jsme předpokládali, že množina aproximovaných vektorů je konečná a že vektory nejsou, v případě klasifikační úlohy, rozděleny podle příslušnosti k jednotlivým klasifikač- proto se ním třídám. Pro klasifikační úlohy je však členění vektorů základním předpokladem, dále zabývejme, jak se změní podmínky, když vektory x budou patřit do R klasifikačních tříd, které budou vymezeny jako části spojitého vektorového prostoru X m. Výskyt vektorů v jed- p(x ω r ) a apriorní pravděpodob bnost klasifikačních tříd bude P(ωω r ), r =,,, R. notlivých klasifikačních třídách ω r bude popsán podmíněnými hustotami pravděpodobnosti Za těchto podmínek bude autokorelační matice κ( (x) definována vztahem R = κ( ( x ) P( ω ). r= r p X x. x. p( x ω ) dx = r p X x. x. p( x) dx (.7) a kovarianční matice buď podle předpisu - 8 -

9 S ( x ) R = r= Obr.4 Souřadnicové soustavy pro výpočet kova- rianční matice P ( ωr ). ( x µ r ).( x µ r ). p( xωr ) d x, p X (.8) kde nebo vztahem µ = r X x. p( xω ) d x, r =,,..., R, p r (.9) 0 S ( x) R = r= P( ω ). ( x µ ).( x µ ). p( xωr ) dx = = ( x µ ).( x µ ). p( x )dx, r p X p X (.0) když střední hodnota µ je vážený průměr středních hodnot (obr.4a), tj. µ R = r= P ( ω ). x. p( xω ) dx = r p X r p p X x. p ( x) dx. určených podle vztahu (.9) (.) Výpočet kovarianční matice podle vztahu (.8) bere ohled na střední hodnoty vektorů v jednotlivých klasifikačních třídách, vektory ze všech klasifikačních tříd se centrují podle středních hodnot vektorů v jednotlivých třídách (obr.4b). lasifikační třídy se tedy po vycentos. Zato rování mohou rozlišit pouze podle rozptylu ve směru jednotlivých souřadnicových jsou transformované proměnné zcela nekorelované. Naopak výpočet kovarianční matice podle vztahu (.0) centruje vektory podle celkové průměrné hodnoty, neodstraňuje vliv středních hodnot vektorů v jednotlivých klasifikačních třídách (obr.4c), a je proto lépe použít této defi- nice v těch případech, kdy jsou střední hodnoty výrazně odlišné a nesou tak významnou část - 9 -

10 informace o klasifikační úloze..7. Příklady ato podkapitola je věnována ukázkovým řešením čtyř příkladů tý- kající se analýzy hlavních komponent..7.. Příklad Předpokládejme, že množinu vekvektory Obr.5 Zadání a řešení příkladu.7. torů X tvoří dva x = (,, ) a x = (,, ) (viz obr.5). Pomocí arhunenovaa Loevova rozvoje najděme novou souřadnicovou soustavu, která umožní popsat oba vektory s minimální střední kvadratickou odchylkou. Řešení: Jak lze usoudit z elementárního znění zadání a případně i ověřit z grafického vyjádření na obr.5, oba zadané vektory leží přesně na přímce dané směrovým vektorem (,, ). Proto by tento vektor měl být první hlavní komponentou, další dvě souřadnice již nejsou pro vyjádření obou zadaných vektorů podstatné. Ověřme nyní tento intuitivní závěr výpočtem. Dle vztahu (.8) pro výpočet autokorelační matice máme,5,5,5 κ = (.. x x + x x ) =. ( ) +. ( ) =,5,5,5.,5,5,5 Autokorelační matice o rozměru x má všechny tři řádky stejné, tj. jsou lineárně závislé. Vlastní čísla λ i, která vypočítáme ze vztahu,5 λ,5,5 det,5,5 λ,5 = 0,5,5,5 λ a tedy (,5 - λ) +,5 +,5.,5.(,5 - λ) = 0 λ 7,5λ = 0 jsou λ = 7,5 a dvě násobná λ, = 0. Protože hodnota vlastního čísla určuje střední kvadratickou chybu vyjádření daného vektoznamená ru při odstranění vlastnímu číslu odpovídající souřadnice (dané vlastním vektorem), to, že i když odstraníme souřadnice dané vlastními vektory odpovídajícími vlastním číslům λ a λ a použijeme pouze souřadnici definovanou vlastním vektorem náležejícím číslu λ, jsou oba vektory x a x vyjádřeny naprosto přesně. Z cvičných důvodů ale spočítejme směry všech tří vlastních vektorů y i, i=,,, které ur- číme ze vztahu - 0 -

11 [κκ - λ.i].y = 0. Pro λ = 7,5 dostáváme lineární soustavu tří rovnic 5y +,5y +,,5y která obsahuje pouze dvě lineárně nezávislé rovnice a tedy její parametrick ké řešení je y + y y = ; y = y a y = t. Při volbě parametru t = odpovídá vlastnímu číslu λ vlastní vektor y = (,, ), jak jsme usoudilii na základě geometrického rozboru úlohy. Pro vlastní čísla λ, = 0 vypadá definiční soustavaa rovnic následovně,5y +,5 y +,,5y = 0,5y +,5 y +,,5y = 0. o znamená, že dvě rovnice jsou lineárně závislé a její parametrické řešení je y = - y - y ; y = t a y = u. Parametry t a u volíme tak, aby vlastní vektory byly navzájem ortogonální í, pro y např. t = a u =, pak y = (-,, ) a pro y např. t = - a u = a tedy y = (0, -, ). V tom případě jsou všechny tři vlastní vek- vzá- tory navzájem ortogonální, každé jejich jemné skalární součty jsou rovny nule. Jak už jsme uvedli dříve, odstraněním souřadnic daných vlastními vektory y a y a ponecháním pouze souřadnice definované vlastním vektorem y se nedopustíme žádné chyby ve vyjádření zadaných vektorů x a x Obr.6 Prostorová lokalizace vektorů x a x (oba vektory leží na souřadnicové ose dané vektorem y a protoo také obě vlastní čísla λ = λ = 0). Jak by vypadalaa situace v případě, že bychom odstranili souřadnici y? Protože body x a x leží na vrcholechh krychlí s hranami o délce, resp. protilehlých k počátku (obr.6), je je- tj. d = v případě vektoru x, resp. d = v případě vektoru x. Protože je nová souřadni- cová soustava ortogonální, promítaly by se oba vektory při odstranění osy y do počátku. A jich vzdálenost od počátku a tím i souřadnice ve směru y rovna délce prostorové úhlopříčky, konečně, vzhledem k tomu, že chybu popisu vektorů ε vyjadřujeme pomocí střední kvadra- tické odchylky, je tato chyba rovna což je právě hodnota λ.,5 y,5 y,5y 5y +,5y +,5 y +,,5y 5y +,,5y = 0; = 0; = 0, d ε = ( + d ) = ( + ) = 7,5, = 0 - -

12 .7.. Příklad Určete pomocí arhunenova-loevova rozvoje novou souřadnicovou soustavu pro situaci znázorněnou na obr., tj. pro body x 0 = (4; ), x = (,4;,8) a x = (4,6;,), která umožní popsat oba vektory s minimální střední kvadratickou odchylkou. Řešení: Autokorelační funkce pro danou množinu vektorů je κ = ( x0. x0 + x. x + x. x ) = 4,4 4,6 6,4,68 =. ( 4 ) +. (,4,8) +. ( 4,6,) =.,8,,68 9,4667 Vlastní čísla λ i, která vypočítáme ze vztahu 6,4 λ,68 det = 0,68 9,4667 λ a tedy λ 5,667λ+6,667 = 0, jsou λ = 5 a λ = 0,667. Pro λ = 5 dostáváme lineární soustavu dvou rovnic 8,76 y +,68y = 0;,68y 5,57 y = 0. 4 Rovnice jsou lineárně závislé, proto je y = y; y = t. Při volbě y = je hodnota y = 4, což představuje směrový vlastní vektor y = (4, ) odpovídající souřadnici y v obr.. Pro λ = 0667 je soustava rovnic 5,57y +,68y = 0;,68y + 8,76y = 0. Při srovnání koeficientů v obou soustavách rovnic - hodnoty jsou týž, pouze v inverzním pořadí. Proto jsou souřadnice opět lineárně závislé y = y; y = t. Při volbě y = -4 4 je y =. o zase reprezentuje vlastní vektor y = (, -4), který má týž směr jako souřadnice y v obr.. Pokud odstraníme osu y a ponecháme osu y, je střední kvadratická chyba ε (0 + + ) = = = 0,667. edy hodnota právě rovná vlastnímu číslu λ. Podobně při ( ) 75 odstranění souřadnicové osy y je chyba rovna ε = = = 5 = λ..7.. Příklad Určete pomocí arhunenova-loevova rozvoje novou souřadnicovou soustavu pro centrované body podle obr., tj. pro body x 0 = (0; 0), x = (-0,6; 0,8) a x = (0,6; -0,8), která umožní popsat oba vektory s minimální střední kvadratickou odchylkou. Řešení: - -

13 Autokorelační funkce pro danou množinu vektorů je κ = ( x0. x0 + x. x + x. x ) = 0 0,6 0,6 0,4 = ,6 0,8 +. 0,6 0,8 = 0 0,8 0,8-0, - 0, 0,4667 ( ) ( ) ( ). Vlastní čísla λ i, která vypočítáme ze vztahu 0,4 λ 0, det = 0 0, 0,4667 λ a tedy λ 0,667λ = 0, jsou λ = 0a λ = 0,667. Pro λ = 0 je soustava rovnic 0,4y 0,y = 0; 0,y + 0,4667y = 0. Při srovnání koeficientů v obou soustavách rovnic - hodnoty jsou týž, pouze v inverzním 4 pořadí. Proto jsou souřadnice opět lineárně závislé a platí y = y; y = t. Při volbě y = je y = 4. o reprezentuje vlastní vektor y = (4, ), který má týž směr jako souřadnice y v obr. i obr.. Pro λ = 0,667 dostáváme lineární soustavu dvou rovnic 0,4667 y 0, y = 0; 0, y 0,4 y = 0. Rovnice jsou lineárně závislé, proto je y = y; y = t. Při volbě y = 4 je hodnota 4 y = -, což představuje směrový vlastní vektor y = (-, 4) odpovídající souřadnici y v obr. i obr.. Pokud odstraníme osu y a ponecháme osu y je střední kvadratická chyba ε (0 + + ) = = = 0,667. edy hodnota právě rovná vlastnímu číslu λ. Podobně při ( ) odstranění souřadnicové osy y je chyba rovna ε = = 0 = λ Příklad 4 Bylo provedeno měření výšky (v cm) a váhy (v kg) u pěti dětí. Naměřené hodnoty byly zaznamenány do matice : U tohoto datového souboru proveďte analýzu hlavních komponent. - -

14 Řešení: U analýzy hlavních komponent potřebujeme nejprve spočítat kovarianční matici s s s s. Pro výpočet kovarianční matice potřebujeme znát průměrnou výšku a váhu u 5 dětí: x 00 x Jednotlivé prvky kovarianční matice poté spočítáme následujícím způsobem: Rozptyl výšky: s x x x x x x x x x x Rozptyl váhy: s x x x x x x x x x x ovariance výšky a váhy: s s x x x x x x x x x x x x x x x x x x x x ovarianční matice je tedy: s s 6 s s Nyní spočítáme vlastní čísla a vlastní vektory kovarianční matice tzn., spočítáme následující determinant: Vypočteme charakteristický polynom: A jeho kořeny, které odpovídají vlastním číslům:

15 Následně spočítáme vlastní vektor odpovídající prvnímu vlastnímu číslu 84: ~6 ~ ~4,5 0 0 v ; 4,5 v v 0 v, ; např. pro 4,5 pak dostáváme: 4,5, který je po normalizaci roven,,, 0,69 0,976. ontrola, že vektor má jednotkovou délku: 0,69 0,976. Spočítáme vlastní vektor odpovídající druhému vlastnímu číslu 4: ,5 ~8 ~6 ~ v ; v 4,5 v 0 v 4,5; např. pro pak dostáváme: 4,5, který je po normalizaci roven,, má jednotkovou délku: 0,976 0,69., 0,976 0,69. ontrola, že vektor Vlastní vektory můžeme uspořádat do matice 0,69 0,976, přičemž pořadí 0,976 0,69 vlastních vektorů odpovídá pořadí vlastních čísel seřazených od největšího k nejmenšímu. Nyní vyjádříme hlavní komponenty odpovídající vlastním číslům seřazeným od největšího k nejmenšímu hlavní komponenty jsou lineární kombinace původních proměnných, přičemž koeficienty jsou souřadnice příslušného vlastního vektoru:. hlavní komponenta: 0,69 x 0,976 x (pro 84). hlavní komponenta: 0,976 x 0,69 x (pro 4) Výpočet procent vyčerpané variability:. hlavní komponenta vyčerpává:. hlavní komponenta vyčerpává: Vyčerpanou variabilitu můžeme znázornit i pomocí sutinového grafu: 0,99 (tzn., 9,9% variability v datech) 0,0707 (tzn., 7,07% variability v datech) - 5 -

16 % vyčerpané variability 00% 50% 9,9% 7,% 0% Pořadí vlastního čísla Dále spočítáme korelace hlavních komponent s původními proměnnými:,,,,,,,, 0,674 0,998 0,7787 0,06 První hlavní je vysoce korelována s váhou a středně korelována s výškou. Druhá hlavní komponenta je středně záporně korelována s výškou. Na závěr vypočítáme nové souřadnice původních bodů po transformaci pomocí obou hlavních komponent spočítaných pomocí PCA: ,69 0, ,976 0,69 0 0,696 0, ,9766 0,69 7,5 95, 05 0,698 0, ,9768 0,69 40, 98,6 0 0,694 0, ,9764 0,696, 9,4 98 0,69 0, ,976 0,69 4,7 90,8 9 0,696 0, ,9766 0,69 6,0 89,5 Souřadnice subjektů můžeme přímo získat i z hlavních komponent např. pro první subjekt: y 0,69 x 0,976 x 0,69 00,976 67,5-6 -

17 y 0,976 x 0,69 x 0,976 00,69 695, Původní data i data po transformaci pomocí PCA si znázorníme: Data v původním prostoru Data v prostoru dvou hlavních komponent Váha hlavní komponenta (7,%) Výška hlavní komponenta (9,9%) Pokud bychom k transformaci použili pouze první vlastní vektor, získáváme data v prostoru první hlavní komponenty: Data v prostoru první hlavní komponenty hlavní komponenta (9,9%).8. Literatura [] Haruštiaková, D., Jarkovský, J., Littnerová, S., Dušek, L. Vícerozměrné statistické metody v biologii. Akademické nakladatelství CERM, s.r.o., Brno. (0) [] Holčík, J. Analýza a klasifikace dat. Akademické nakladatelství CERM, s.r.o., Brno. (0) [] Jolliffe, I.. Principal Component Analysis. Springer, New York (00).. orespondenční analýza Již převedeno do elektronické podoby

18 . Vícerozměrné škálování Již převedeno do elektronické podoby. 4. Faktorová analýza Bude posláno separátně. Obsah Ordinační analýzy Analýza hlavních komponent Výstupy z výuky Princip Odvození Geometrická interpretace Vlastnosti Zobecnění pro více tříd Příklady Příklad Příklad Příklad Příklad Literatura orespondenční analýza Vícerozměrné škálování Faktorová analýza