METODY PRO REDUKCI DIMENZE V MNOHOROZMĚRNÉ STATISTICE
|
|
- Alois Dostál
- před 8 lety
- Počet zobrazení:
Transkript
1 METODY PRO REDUKCI DIMENZE V MNOHOROZMĚRNÉ STATISTICE A JEJICH VÝPOČET Jan Kalina a, Jurjen Duintjer Tebbens a,b Adresa: a Ústav informatiky AV ČR, v.v.i., Pod Vodárenskou věží 2, Praha 8. b Univerzita Karlova v Praze, Farmaceutická fakulta v Hradci Králové, Heyrovského 1203, Hradec Králové. Abstract: The paper is devoted to standard multivariate statistical methods for dimension reduction. Their common basis is the eigendecomposition (i.e. computation of eigenvalues and eigenvectors) or, more generally, the singular value decomposition of specific matrices. These matrix decompositions possess excellent properties from the point of view of numerical mathematics. The paper overviews some results of numerical linear algebra on the numerical stability of methods for the computation of these decompositions. After that, it discusses various dimension reduction methods based on the decompositions, like principal component analysis, correspondence analysis, multidimensional scaling, factor analysis, and linear discriminant analysis for high-dimensional data. Keywords: Dimension reduction, eigendecomposition, numerical stability. Abstrakt: Článek je věnován standardním mnohorozměrným statistickým metodám pro redukci dimenze. Jejich společným rysem je spektrální rozklad určité matice (tj. výpočet vlastních čísel a vlastních vektorů) anebo obecněji singulární rozklad. Takové rozklady mají vynikající vlastnosti z hlediska numerické matematiky. Tento článek shrnuje některé výsledky numerické lineární algebry o numerické stabilitě metod pro výpočet popsaných rozkladů. Poté diskutuje možnosti použití metod pro redukci dimenze založených na těchto rozkladech jako analýzy hlavních komponent, korespondenční analýzy, mnohorozměrného škálování, faktorové analýzy a lineární diskriminační analýzy v kontextu vysoce dimenzionálních dat. Klíčová slova: Redukce dimenze, spektrální rozklad, numerická stabilita. 1. Problematika redukce dimenzionality Redukce dimenze představuje důležitý krok statistické analýzy či extrakce informace z mnohorozměrných dat, který může být v případě vysoce dimenzionálních dat zcela nezbytný. Jednotlivé metody slouží ke zjednodušení 1
2 Metoda Vlastnosti Analýza hlavních komponent Lineární Nesupervidovaná Korespondenční analýza Lineární Nesupervidovaná Mnohorozměrné škálování Nelineární Nesupervidovaná Faktorová analýza Lineární Nesupervidovaná Lineární diskriminační analýza Lineární Supervidovaná Tabulka 1: Přehled statistických metod pro redukci dimenze dalších analýz (jako např. klasifikační nebo shlukové analýzy) a současně i umožňují přímo extrakci informace z dat, popisují rozdíly mezi skupinami, odhalují dimenzionalitu separace mezi skupinami i vyjadřují příspěvek jednotlivých proměnných k této separaci. Z anglicky psaných knih můžeme k danému tématu doporučit [15, 28] anebo [16, 22], kde jsou tytéž metody diskutovány spíše z hlediska dolování znalostí (data mining). Některé metody pro redukci dimenze jsou popsány i v českých učebnicích [2, 25, 33]. Metody pro redukci dimenze se někdy dělí do dvou rozsáhlých skupin, zejména v aplikacích dolování znalostí [22]: 1. Selekce proměnných (selekce příznaků, variable selection, feature selection, variable subset selection) 2. Extrakce příznaků (feature extraction) Lineární Nelineární Selekcí proměnných se rozumí výběr jen těch proměnných, které jsou relevantní. Naproti tomu metody pro extrakci příznaků nahrazují pozorovaná data jejich kombinací. Jsou založeny na takovém zobrazení, které převádí pozorovaná data z vysoce rozměrného prostoru do prostoru menší dimenze. Výpočty tak sice proběhnou v prostoru menší dimenze, ale přesto je nutné napozorovat hodnoty všech proměnných. Podle charakteru tohoto zobrazení rozlišujeme metody lineární a nelineární [22]. Podle jiného kritéria dělíme metody pro redukci dimenze na supervidované a nesupervidované. Supervidovanými jsou takové, které jsou určeny pro data pocházející ze dvou nebo více skupin a současně využívají informaci o tom, které pozorování patří do které skupiny. To umožňuje zachovat oddělitelnost mezi skupinami. Někteří autoři varují, že kupříkladu analýza 2
3 Metoda Hierarchická shluková analýza k průměrů (k-means) k nejbližších sousedů (k-nearest neighbour) Vlastnost Nesupervidovaná Nesupervidovaná Supervidovaná Tabulka 2: Přehled metod shlukové analýzy hlavních komponent jako příklad nesupervidovaných metod není vhodná pro redukci dimenze dat pocházejících ze dvou nebo více skupin v situaci, kdy cílem je klasifikační analýza [7]. Společným rysem lineárních metod pro redukci dimenze je skutečnost, že naleznou nejdůležitější transformace pozorovaných dat pomocí nástrojů lineární algebry a následně i nahradí původní data těmito novými transformovanými proměnnými. Všechny metody v tomto článku provádějí transformaci dat pomocí výpočtu vlastních a/nebo singulárních vektorů. Přitom použití vlastních/singulárních vektorů způsobí i nekorelovanost transformovaných proměnných. Snížením počtu proměnných se sníží redundance v původních datech. To může napravit potíže se spolehlivostí závěrů následné statistické analýzy. Tento článek stručně popisuje klasické mnohorozměrné statistické metody pro redukci dimenze uvedené v tabulce 1 a věnuje se i jejich vhodnosti pro vysoce dimenzionální data. V kapitole 2 shrneme metody lineární algebry, které tvoří společný základ různých statistických metod pro redukci dimenze. Přitom pro vysoce rozměrná data je důležitý i pohled numerické lineární algebry, který se týká numerické stability výpočtu jednotlivých rozkladů matic. Jednotlivé metody pro redukci dimenze jsou pak popsány ve zbývajících kapitolách. Nejde přitom o vyčerpávající přehled poznatků o klasických metodách, ale spíše o zamyšlení nad jejich použitelností pro vysoce dimenzionální data, kdy počet proměnných p převyšuje počet pozorování n. Těmto aspektům se věnuje značná pozornost i v bioinformatice nebo analýze obrazu. Mezi další metody, které by si zasloužily pozornost, patří i kanonická korelační analýza, která zkoumá lineární vztah mezi dvěma skupinami proměnných, nebo shluková analýza, která provádí průzkum dat s cílem najít nějaké jejich shluky [16, 30, 20]. Na rozdíl od metod popsaných v tomto článku tedy shluková analýza není založena na převodu dat do prostoru menší dimenze za pomoci nějakého (lineárního či nelineárního) zobrazení [22]. Přehled různých metod shlukové analýzy uvádí tabulka 2. Mezi další postupy pro redukci dimenze patří například metoda locally linear embedding anebo metoda self- 3
4 organizing maps založená na neuronových sítích, což jsou metody oblíbené například v analýze obrazu [19]. Z grafických metod pro exploratorní analýzu dat stojí za zmínku biplot, zobrazující současně data i proměnné a bývá použit např. pro interpretaci výsledků analýzy hlavních komponent [22]. V článku budeme používat následující značení. Jednotkovou matici o velikosti p označíme I p, případně I, pokud je dimenze jasná z kontextu. Prvek matice M R n p na i-tém řadku a v j-tém sloupci píšeme jako m ij. Dále označíme m i = n m ij, m j = j=1 p m ij, m = i=1 n i=1 j=1 Normou vektoru i matice vždy rozumíme euklidovskou normu. 2. Singulární a spektrální rozklad matice p m ij. (1) Základem celé řady statistických metod pro redukci dimenze jsou singulární a spektrální rozklad matice. Oba pojmy se ve statistice často považují za synonyma, ale v lineární algebře představují odlišné matematické koncepty. V této sekci je popíšeme postupně a uvedeme vlastnosti (většinou bez důkazu), které jsou pro nás důležité. Pro odvození, důkazy a detailnější popis odkážeme na [32, kap. 4, 5 a 6] a [12, kap. 2.4, 7 a 8] anebo na české práce [11, kap. 2] a [9, kap. 2 a 5]. Různé algoritmy pro výpočet rozkladů matic byly popsány např. v přehledu výpočetní statistiky [6]. Naproti tomu v této kapitole klademe důraz na numerickou stabilitu algoritmů, což je klíčová vlastnost při aplikacích na vysoce rozměrná data Spektrální rozklad Nejprve definujeme vlastní čísla a vlastní vektory. Pro reálnou čtvercovou matici A R p p nazveme číslo λ C vlastním číslem (charakteristickým číslem, eigenvalue) matice A, pokud existuje nenulový vektor q C p takový, že Aq = λq. Vektor q nazveme vlastním vektorem (eigenvector) matice A. Každé vlastní číslo λ s příslušným vlastním vektorem q matice A zřejmě splňuje vztah (A λi)q = 0. Matice A λi je proto singulární a její determinant je nulový. Rovnice det(a λi) = 0 představuje polynomiální rovnici s neznámou λ. Jelikož každý nekonstantní polynom má alespoň jeden komplexní kořen, víme, že existuje vždy alespoň jedno vlastní číslo. Vlastní čísla reálné matice mohou být komplexní, protože kořeny polynomu s reálnými koeficienty jsou obecně komplexní. 4
5 Z existence alespoň jednoho vlastního čísla vyplývá, že lze k danému lineárnímu zobrazení z lineárního prostoru do stejného prostoru vždy najít vektor, který při zobrazení nemění svůj směr. V případě, kdy existuje maximální počet p návzájem lineárně nezávislých vlastních vektorů, zřejmě existuje báze prostoru R p složená z vlastních vektorů. Matici A můžeme potom pomocí této báze transformovat na jakýsi kanonický tvar, tj. na diagonální matici, jejíž všechny vlastní vektory jsou jednotkové vektory (sloupce jednotkové matice). Spektrální rozklad čtvercové matice A popisuje právě tuto transformaci, a to ve tvaru A = QΛQ 1, (2) kde Λ je diagonální matice s vlastními čisly λ 1,..., λ p na diagonále. Rozepíšeme-li ekvivalentní vztah AQ = QΛ po sloupcích, dostaneme Aq i = λ i q i, i = 1,..., p, (3) kde q i značí i-tý sloupec matice Q. Vidíme, že sloupce matice Q jsou tvořeny vlastními vektory A. Třídou matic, pro kterou spektrální rozklad vždy existuje, je třída symetrických pozitivně semidefinitních matic. Empirická varianční matice i korelační matice patří k této třídě. Pro symetrické pozitivně semidefinitní matice platí, že všechna vlastní čísla jsou reálná a nezáporná. Navíc existuje tím pádem vždy báze vlastních vektorů, které jsou navzájem ortogonální, q T i q j = 0, i j, q T i q i = 1, i = 1,..., p. (4) V tomto případě platí Q T Q = I, tedy Q 1 = Q T a spektrální rozklad (2) lze psát jako A = QΛQ T. (5) 2.2. Singulární rozklad Singulární rozklad (singular value decomposition, SVD) je narozdíl od spektrálního rozkladu definován pro libovolnou obdélníkovou matici A R n p. Je-li r min{n, p} hodnost matice A, pak má tvar A = UΣV T, (6) kde U R n n a V R p p jsou ortonormální matice, tj. U T U = I n a V T V = I p a matice Σ R n p má na prvních r diagonálních pozicích prvky σ ii > 0, i = 1,..., r (7) 5
6 a je nulová jinde. Čísla σ ii se nazývají singulární čísla a platí, že se rovnají odmocnině nenulových vlastních čísel matice AA T (i A T A). Jsou tedy vždy reálná a kladná. Je konvencí uvádět singulární čísla matice Σ tak, aby byla sestupně uspořádaná. Sloupce matice U obsahují takzvané levé singulární vektory a jsou zároveň vlastními vektory matice AA T. Sloupce V se nazývají pravé singulární vektory a jsou i vlastními vektory A T A. Není těžké vidět, že pro symetrické matice (A = A T ) představuje spektrální a singulární rozklad totéž. V lineární algebře se pro symetrické matice používá vždy pojem spektrální rozklad, kdyžto statistická literatura používá i pojem singulární rozklad. Ze singulárního rozkladu (6) dostaneme po jednoduchém (ale dlouhém) rozepsání po prvcích ekvivalentní vyjádření A = r σ ii u i vi T. (8) i=1 Pro jednotlivé členy přitom platí σ ii u i v T i = σ ii a tudíž σ 11 u 1 v T 1 = σ 11 σ 22 u 2 v T 2 = σ 22 σ rr u r v T r = σ rr. (9) Ve vztahu (8) nahlížíme na matici A jako na součet celkového počtu r komponent. Jde vlastně o ekvivalentní vyjádření pozorovaných dat vůči jiným ortonormálním bázím. Lze říci, že komponenty příslušné největším singulárním číslům mají v pozorovaných datech největší váhu. Statistické metody pro redukci dimenze založené na singulárním (popř. pro symetrické pozitivně semidefinitní matice spektrálním) rozkladu určité matice A lze interpretovat i tak, že samotnou matici A nahradí aproximací podle s A σ ii u i vi T, (10) i=1 v němž s < r. To znamená, že se zcela ignoruje vliv takových komponent z (8), které přísluší nejmenším (a tedy v určitém smyslu nejméně důležitým) singulárním číslům Numerické vlastnosti Singulární rozklad je velmi silný nástroj nejen z teoretického hlediska, ale i výpočetně, pakliže je správně implementován. Standardní metoda pro jeho výpočet je sice dražší (ale ne řádově) než metody pro jiné rozklady jako např. LU rozklad (Gaussova eliminace), ale ze všech rozkladů si nejlépe dokáže 6
7 poradit v situacích, kdy daná matice je singulární nebo téměř singulární. Například určení hodnosti matice je v řadě případů možné jen pomocí SVD. Správná implementace SVD je totiž schopná najít veškerá singulární čísla včetně těch nejmenších s přesností stejnou jako strojová přesnost [3]. Navíc singulární (v symetrickém pozitivně semidefinitním případě spektrální) rozklad lze spočíst tzv. zpětně stabilně. To znamená, že existují metody pro SVD dané matice A, které spočtou v konečné aritmetice vždy rozklad, který je přesným rozkladem (tj. rozkladem v přesné aritmetice) pro matici velmi blízkou původní matici A. Zdůrazníme, že tato vlastnost není vlastností singulárního rozkladu, ale vlastností metody jejího výpočtu. Na výběru nejvhodnější metody maticového výpočtu velice zaleží. Typickým příkladem je řešení problému nejmenších čtverců min x R Ax b, A Rn p, b R n, n > p. (11) p Matematicky přesným řešením je x = A b, kde A je Mooreova-Penroseova pseudoinverze k matici A. Naivní přístup spočívá v tom, že se násobí inverze matice A T A s vektorem A T b. Jsou-li sloupce matice A téměř lineárně závislé, pak může dojít k obrovským chybám při výpočtu (A T A) 1. Vhodná implementace založená na SVD využívá vzorec x = A b = VΣ U T b = r i=1 u T i b σ ii v i (12) obdobný vzorci (8), přičemž výpočet SVD je numericky stabilní. Pro nejstabilnější a často zároveň nejrychlejší maticové metody doporučujeme sofware Matlab [23], který obsahuje nejmodernější implementace maticových metod přímo od vědecké komunity numerické lineární algebry, tedy komunity, která se specializuje právě na efektivní (computationally efficient) maticové výpočty. Alternativně lze použít populární statistický software R [26], který je narozdíl od Matlabu zdarma. I když samotné metody maticového počtu byly již dávno podrobně popsány v statistické literatuře [27], zatím se jim věnovalo málo pozornosti z numerického hlediska a není ani vždy zaručeno, že metody jsou efektivně implementovány v R. To platí zejména pro práci s vysoce dimenzionálními daty. Výpočet singulárního rozkladu čtvercové matice velikosti p stojí přibližně 16/3 p 3 aritmetických operací. Pro vysoce dimenzionální data (např. p ) obecně platí, že výpočet nelze provést v rozumném čase anebo dochází k vyčerpání úložného prostoru v paměti počítače. Často jsou data však řídká, tzn. mnoho prvků dané matice je nulových, což může výpočet usnadnit. Existují iterační metody, které vyžadují v každé iteraci jen jedno poměrně levné 7
8 násobení vektoru s danou řídkou maticí. Výsledkem iteračního procesu jsou aproximace singulárních čísel a vektorů s tím, že zpravidla nejrychleji konvergují největší singulární čísla. Takový postup je pro redukci dimenze vhodný vzhledem k (10) a často i umožňuje vyhnout se regularizaci [16, 10]. 3. Analýza hlavních komponent Analýza hlavních komponent (PCA, principal component analysis) představuje nejčastěji používanou metodu pro redukci dimenze. Předpokládáme, že máme k dispozici nezávislé stejně rozdělené p-rozměrné náhodné vektory X 1,..., X n R p. Metoda je založena na spektrálním rozkladu empirické varianční matice S = 1 n 1 n (X i X)(X i X) T R p p, (13) i=1 kde X označí vektor výběrového průměru. Tato matice je symetrická a pozitivně semidefinitní s nezápornými vlastními čísly. Hodnost S je nejvýše min{n, p}. Protože součet vlastních čísel matice je roven součtu jejích diagonálních prvků (tj. její stopě), je v případě varianční matice roven součtu rozptylů jednotlivých proměnných. Cílem analýzy hlavních komponent je nahradit p-rozměrná pozorování malým počtem s (s < min{n, p}) hlavních komponent, které představují navzájem nekorelované lineární kombinace naměřených proměnných vysvětlující velkou (maximální možnou) část variability dat [2]. Hlavní komponenty lze interpretovat i tak, že jednotlivé naměřené pozorování se skládá z průměru spočítaného přes všechna pozorování plus nějaká lineární kombinace všech jednotlivých hlavních komponent. Přitom existují různá doporučení, jak volit vhodnou hodnotu s. Analýza hlavních komponent promítá jednotlivá pozorování X i na podprostor generovaný s vlastními vektory q 1,..., q s matice S, které přísluší největším vlastním číslům, X i [q 1,..., q s ][q 1,..., q s ] T X i. (14) Následující výpočty pak probíhají v prostoru malé dimenze generovaném vektory q 1,..., q s a místo X i se pracuje s lineární kombinací [q 1,..., q s ] T X i, (15) tedy se skalárními součiny s vlastními vektory q 1,..., q s. Příspěvek i-té hlavní komponenty (i = 1,..., p), tj. komponenty příslušné i-tému největšímu 8
9 vlastnímu číslu, k vysvětlení celkové variability v datech přitom vyjádříme jako λ i p j=1 λ, (16) j kde λ 1,..., λ p jsou vlastní čísla matice S. Alternativně lze počítat hlavní komponenty z empirické korelační matice, což se doporučuje spíše jen v případě velkých odlišností ve variabilitě jednotlivých proměnných [28]. Výpočet hlavních komponent lze provést numericky stabilně i pro vysoce dimenzionální data (n p). V softwaru je však možné narazit na takovou implementaci, která pro n p selhává. V softwaru R jsou k dispozici specializované knihovny HDMD či FactoMineR pro výpočet (nejen) hlavních komponent pro vysoce dimenzionální data, které lze doporučit před běžnými implementacemi [24]. 4. Korespondenční analýza Korespondenční analýza představuje obdobu analýzy hlavních komponent pro kategoriální data [14, 25, 28]. Někteří autoři ji poněkud překvapivě označují i jako korespondenční faktorovou analýzu [13]. Tzv. jednoduchá korespondenční analýza studuje vztah mezi dvěma kategoriálními proměnnými. Označme pomocí N R I J kontingenční tabulku pozorovaných četností n ij s I řádky a J sloupci. Pomocí χ 2 budeme značit testovou statistiku Pearsonova χ 2 testu nezávislosti (nebo homogenity) pro stanovení vztahu mezi sloupci a řádky. Dejme tomu, že χ 2 test zamítá nulovou hypotézu nezávislosti mezi kategoriální proměnnou v řádcích tabulky a kategoriální proměnnou v jejích sloupcích. Cílem korespondenční analýzy je dále redukovat mnohorozměrný prostor řádkové a sloupcové proměnné a prostudovat interakci mezi oběma proměnnými. Statistika χ 2 se obvykle počítá jako χ 2 = I J i=1 j=1 ( n ij n ) 2 / i n j ni n j. (17) n n To lze napsat pomocí relativních četností p ij = n ij /n jako χ 2 = n I i=1 j=1 J (p ij p i p j ) 2 /p i p j. (18) Matice P, jejíž prvky jsou relativní četnosti p ij, se v tomto kontextu označuje 9
10 jako korespondenční matice. Další zápisy téhož jsou χ 2 = n I J p i i=1 j=1 ( ) 2 pij p j /p j = n p i J I p j j=1 i=1 ( pij kde čísla tvaru p ij /p i a p ij /p j jsou prvky tzv. profilů. Vektory marginálních pravděpodobností označíme jako p j p i ) 2 /p i, (19) c = (p 1,..., p J ) T, r = (p 1,..., p I ) T (20) a definujeme řádkové a sloupcové profily jako r i = c j = ( ni1,..., n ) T ij = n i n i,..., n ) T Ij = n j n j ( n1j ( pi1,..., p ) T ij, (21) p i p i,..., p ) T Ij. (22) p j p j ( p1j Ze vztahu (19) dostaneme χ 2 = n I i=1 p i (r i c) T D 1 c (r i c) = n J j=1 p j (c j r) T D 1 r (c j r), (23) kde D r = diag(r), D c = diag(c) a diag značí diagonální matici. Zřejmě platí I i=1 p i = J j=1 p j = 1 a testovou statistiku χ 2 lze tedy interpretovat jako vážený průměr χ 2 vzdáleností mezi řádkovými profily r i a marginálními sloupcovými pravděpodobnostmi c. Stejně tak lze na hodnotu χ 2 nahlížet jako na vážený průměr χ 2 vzdáleností mezi sloupcovými profily c j a marginálními řádkovými pravděpodobnostmi r. V rámci redukce mnohorozměrného prostoru lze vzorec (18) s využitím toho, že čísla p ij p i p j jsou prvky matice P rc T, vyjádřit jako χ 2 = n tr [ D 1 r (P rc T )D 1 c (P rc T ) T ], (24) kde tr značí stopu matice. Jsou-li λ 2 1,..., λ 2 r nenulová vlastní čísla matice pak s využitím věty o stopě máme D 1 r (P rc T )D 1 c (P rc T ) T, (25) χ 2 = n 10 r λ 2 i. (26) i=1
11 Další výpočty pak vedou ke grafickému znázornění vztahů mezi řádky a sloupci kontingenční tabulky za pomoci redukce dat do dvou dimenzí [25]. Potřebné dvě hlavní komponenty jsou přeškálovanými levými a pravými singulárními vektory v SVD rozkladu matice D 1/2 r (P rc T )D 1/2 c, pro kterou lze dokázat, že má singulární čísla λ 1,..., λ r. Tyto dvě hlavní komponenty přísluší vlastním číslům λ 2 1 a λ 2 2 matice (25) a jejich příspěvek k vysvětlení všech dimenzí lze vyjádřit jako podíl λ λ 2 2 r, (27) j=1 λ2 j kde r i=1 λ2 i = χ 2 /n se nazývá celková inercie. Zde je na místě upozornit na další nekonzistenci mezi terminologií ve statistice a lineární algebře. Inercie v lineární algebře je pojem spojený s počty (a ne součty) vlastních čísel, přesněji jde o počty záporných, nulových a kladných vlastních čísel. Celková inercie r i=1 λ2 i = χ2 /n je oblíbenou mírou asociace mezi dvěma kategoriálními proměnnými, která se běžně označuje jako φ (koeficient fí) [1]. Inercie odpovídá stupni rozptýlení bodů v mnohorozměrném prostoru a rovná se váženému průměru χ 2 vzdáleností řádkových profilů od svého průměru. Jednotlivé úrovně řádkové i sloupcové proměnné se zobrazují do jediného společného grafu. Vodorovné ose v grafu odpovídá první hlavní komponenta a svislé ose druhá hlavní komponenta transformovaných dat. Řádky zobrazené blízko u sebe pak mají podobné profily a obdobně i sloupce zobrazené blízko sebe. Současně platí, že bod odpovídající konkrétnímu řádku a bod odpovídající konkrétnímu sloupci jsou si blízko tehdy a jen tehdy, když se daná kombinace objevuje častěji, než by se očekávalo v modelu nezávislosti. Polohy bodů tak vyjadřují asociaci mezi konkrétními úrovněmi řádkového a sloupcového profilu a tato asociace se označuje jako stupeň korespondence. Grafický výstup tedy hodnotí rozdíl pozorované tabulky četností oproti situaci, kdyby platil model nezávislosti mezi oběma proměnnými. To následně umožňuje např. shlukování kategorií nominálních proměnných. Zobecněním na více než dvě kategoriální proměnné je mnohorozměrná korespondenční analýza, kterou podrobně studuje kniha [29]. Korespondenční analýza je numericky stabilní i pro vysoce dimenzionální data [5]. 5. Mnohorozměrné škálování Mnohorozměrné škálování (vícerozměrné škálování) je metoda pro redukci dimenze mnohorozměrných dat a jejich grafické zobrazení, které co 11
12 možná nejpřesněji zachová vzdálenosti mezi pozorováními. Nejčastěji se jedná o dvourozměrnou vizualizaci [22], tedy o redukci dimenzionality dat do dvou dimenzí. Předpokládejme, že jsou k dispozici mnohorozměrná spojitá data měřená na n objektech. Metoda pak pracuje s maticí euklidovských vzdáleností mezi objekty. Metodu však lze použít i v případě, že jsou k dispozici pouze vzdálenosti mezi objekty, zatímco původní naměřené hodnoty nejsou známy. Jinou možností je situace, kdy jsou naměřeny spíše podobnosti mezi objekty, pokud je lze snadno převést na nepodobnosti (vzdálenosti). Nejjednodušším případem je tzv. klasické mnohorozměrné škálování, které se též označuje jako analýza hlavních souřadnic (též analýza hlavních koordinát, principal coordinate analysis). To představuje lineární metodu pro redukci dimenze [22]. Necht δ ij představuje vzdálenost mezi i-tým a j-tým pozorováním a necht D R n n značí symetrickou čtvercovou matici s prvky d ij = 1 2 δ2 ij, i = 1,..., n, j = 1,..., n. (28) Pomocí C R n n označíme symetrickou čtvercovou matici s prvky c ij, kde pro i, j = 1,..., n, c ij = d ij (d i d ) (d j d ) = d ij d i d j + d. (29) Klasické mnohorozměrné škálování je založeno na spektrálním rozkladu matice C, která je pozitivně semidefinitní [15]. Vlastní vektory příslušné právě dvěma největším vlastním číslům poslouží k transformaci souřadnic dat a jejich následnému grafickému zobrazení [25]. Důležitou roli hraje i metrické mnohorozměrné škálování, které umožňuje transformovat vzdálenosti pomocí monotónní funkce, a je tedy nelineární metodou pro redukci dimenze. Výpočet je pak založen na iterativním řešení minimalizace ztrátové funkce, která vyjadřuje odlišnost mezi transformovanými vzdálenostmi (po redukci dimenze) a původními naměřenými vzdálenostmi. Kromě toho existuje nemetrické (ordinální) mnohorozměrné škálování, které bylo podrobněji popsáno např. v knihách [25, 22]. Obecně lze mnohorozměrné škálování popsat jako soubor mnoha různých metod a algoritmů. Přitom jsou některé z nich vhodné i pro analýzu vysoce dimenzionálních dat. V tomto kontextu se za nejvhodnější považují právě algoritmy založené na singulárním rozkladu [4]. Jako výhodu metod mnohorozměrného škálování lze uvést i jejich schopnost odhalit shluky v datech. 12
13 6. Faktorová analýza Faktorová analýza je založena na předpokladu, že lze pozorovaná data vysvětlit pomocí malého počtu latentních proměnných (faktorů) [2, 33]. Představuje častý nástroj při vyhodnocování psychologických testů či v ekonomii. Faktorová analýza vzbuzuje určité kontroverze i kvůli problematické interpretaci vzniklých faktorů. Model faktorové analýzy pro i-té pozorování zapíšeme jako X i1 µ 1 = γ 11 f i1 + + γ 1t f it + e i1,.. X ip µ p = γ p1 f i1 + + γ pt f it + e ip, (30) kde i = 1,..., n. Pozorování X i = (X i1,..., X ip ) T zde vysvětlujeme pomocí latentních faktorů f i1,..., f it, parametrů µ i,..., µ p a γ 11,..., γ pt a šumu e i1,..., e ip. Model můžeme vyjádřit maticově jako X i µ = Γf i + e i, i = 1,..., n. (31) Oproti analýze hlavních komponent se nepředpokládá, že by latentní proměnné vysvětlily veškerou variabilitu pozorovaných dat. Část variability jednotlivé proměnné, která je vysvětlena latentními proměnnými, se označuje jako komunalita. Nyní stručně popíšeme možný způsob pro odhad parametrů v (30). Označme pomocí S empirickou varianční matici spočítanou ze všech pozorování X 1,..., X n. Předpokládá se, že S = ΓΓ T + var e a že matice var e je diagonální. Díky tomu se odhadnou mimodiagonální prvky matice T = S var e přímo pomocí mimodiagonálních prvků S. Pokud jde o diagonální prvky T, lze je odhadnout iteračním postupem [2]. Tím se získá odhad celé matice T a dále se hledá taková matice Γ, která splňuje vztah ΓΓ T = T. Komplikací je i to, že také pro matici Γ = ΓU platí Γ Γ T = T, pokud U je (libovolná) ortonormální matice. To znamená, že latentní proměnné nejsou určeny jednoznačně. Byly navrženy různé metody pro odhad matice Γ: 1. Metoda hlavních komponent 2. Metoda hlavních faktorů 3. Iterovaná metoda hlavních faktorů 4. Metoda maximální věrohodnosti 5. Metoda minimalizace reziduí 13
14 Metodu hlavních komponent pro odhad parametrů ve faktorové analýze lze nastínit pomocí spektrálního rozklad matice T ve tvaru T = QΛQ T. (32) Označme napřed pomocí Q t matici obsahující prvních t sloupců Q a pomocí Λ 1/2 t diagonální matici, jejíž diagonální prvky jsou rovny odmocninám t prvních diagonálních prvků matice Λ. Matice Γ se pak určí jako Γ = Q t Λ 1/2 t. (33) Alternativně lze matici S nahradit empirickou korelační maticí [28]. Pro vysoce dimenzionální data (n p) lze faktorovou analýzu použít, pokud se zvolí vhodná metoda pro odhad matice Γ. Často používaná metoda maximální věrohodnosti zde však selhává. Vhodně implementovanou metodu nabízí např. knihovna HDMD v softwaru R. 7. Lineární diskriminační analýza Přestože lineární diskriminační analýza (LDA) představuje klasifikační metodu, lze ji interpretovat jako metodu, která již v sobě automaticky zahrnuje supervidovanou redukci dimenze [22]. Předpokládejme, že máme k dispozici celkový počet K různých skupin, v nichž jsou pozorovány nezávislé p-rozměrné náhodné veličiny X 1,..., X n pocházející z p-rozměrného normálního rozdělení. Předpokládáme, že každé skupině přísluší odlišný vektor středních hodnot, ale varianční matice Σ je společná pro všechny skupiny. Její odhad označíme jako S. V k-té skupině označíme výběrový průměr pozorovaných dat jako X k a celkový průměr napříč skupinami jako X. LDA zařadí nové pozorování do té skupiny, k jejímuž průměru má nejblíž ve smyslu Mahalanobisovy vzdálenosti. Ekvivalentně lze výpočet LDA založit na tzv. diskriminačních skórech, kterých je právě s = min{k 1, p}. Tento přístup se typicky využívá v softwarových implementacích [18, 8]. Matice B o rozměrech p p je definovaná jako K B = ( X k X)( X k X) T. (34) k=1 Další výpočet je založen na spektrálním rozkladu matice S 1 B. Diskriminační skóry se rovnají těm hlavním vektorům S 1 B, které přísluší nenulovým vlastním číslům. 14
15 Věta: Uvažujme p-rozměrné pozorování Z. Označme vlastní vektory matice S 1 B příslušné nenulovým vlastním číslům jako v 1,..., v s. Pak lineární diskriminační analýza klasifikuje pozorování Z do skupiny k právě tehdy, když s [ v T j (Z X k ) ] 2 s [ v T j (Z X i ) ] 2, i = 1,..., K. (35) j=1 j=1 Důkaz je uveden např. v knize [18]. Důsledkem věty je pak následující tvrzení, které ukazuje, jak LDA speciálně pro K = 2 redukuje dimenzi na hodnotu 1. Věta: Uvažujme K = 2 a mějme k dispozici p-rozměrné pozorování Z. Pak má matice S 1 B jediné nenulové vlastní číslo, jemuž přísluší vlastní vektor, který označíme v. Předpokládejme dále v T X1 > v T X2. Lineární diskriminační analýza klasifikuje pozorování Z do skupiny 1 právě tehdy, když v T Z > vt X1 + v T X2 2. (36) Pokud však platí v T X1 < v T X2, lineární diskriminační analýza klasifikuje Z do skupiny 1 právě tehdy, když v T Z < vt X1 + v T X2 2. (37) Pro vysoce dimenzionální data za předpokladu n p trpí lineární diskriminační analýza tzv. prokletím dimenzionality. Při výpočtu diskriminačních skórů je velmi obtížné nejprve spočítat potřebná vlastní čísla, přičemž odpovídající vlastní vektory nemusí v tomto kontextu ani být definovány [10]. Možným řešením je použít regularizovaný odhad varianční matice [16] anebo vhodně modifikovat Fisherovo optimalizační kritérium, které stojí v pozadí metody LDA a vyžaduje výpočet vlastních čísel matice S 1 B [10]. Poděkování Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy. Druhý autor byl podpořen grantem GA S Grantové agentury České republiky. 15
16 Literatura [1] Agresti A. (2002): Categorical data analysis. Second edition. Wiley, New York. [2] Anděl J. (1978): Matematická statistika. SNTL, Praha. [3] Barlow J.L., Bosner N., Drmač Z. (2005): A new stable bidiagonal reduction algorithm. Linear Algebra and its Applications 397, [4] Bécavin C., Tchitchek N., Mintsa-Eya C., Lesne A., Benecke A. (2011): Improving the efficiency of multidimensional scaling in the analysis of high-dimensional data using singular value decomposition. Bioinformatics 27 (10), [5] Busygin S., Pardalos P.M. (2007): Exploring microarray data with correspondence analysis. In Pardalos P.M. et al. (Eds.): Data Mining in Biomedicine. Springer, New York, 2007, [6] Čížková L, Čížek P. (2012): Numerical linear algebra. In Gentle J.E., Härdle W.K., Mori Y. (Eds.): Handbook of Computational Statistics. Springer, Berlin, [7] Dai J.J., Lieu L., Rocke D. (2006): Dimension reduction for classification with gene expression microarray data. Statistical Applications in Genetics and Molecular Biology 5 (1), Article 6. [8] Duda R.O., Hart P.E., Stork D.G. (2001): Pattern Classification. Second edition. Wiley, New York. [9] Duintjer Tebbens J., Hnětynková I., Plešinger M., Strakoš Z., Tichý P. (2012): Analýza metod pro maticové výpočty. Matfyzpress, Praha. [10] Duintjer Tebbens J., Schlesinger P. (2007): Improving implementation of linear discriminant analysis for the high dimension/small sample size problem. Computational Statistics & Data Analysis 52, [11] Fiedler M. (1981): Speciální matice a jejich použití v numerické matematice. SNTL, Praha. [12] Golub G., van Loan Ch. (1996): Matrix computations. Johns Hopkins University Press, Baltimore. [13] Göhlmann H., Talloen W. (2009): Gene expression studies using Affymetrix microarrays. Chapman & Hall/CRC, Boca Raton. [14] Greenacre M. (1984): Theory and applications of correspondence analysis. Academic Press, London. [15] Härdle W.K., Simar L. (2007): Applied multivariate statistical analysis. Springer, Berlin. [16] Hastie T., Tibshirani R., Friedman J. (2001): The elements of statistical learning. Springer, New York. 16
17 [17] Havel V., Holenda J. (1984): Lineární algebra. SNTL, Praha. [18] Johnson R.A., Wichern D.W. (1982): Applied multivariate statistical analysis. Prentice-Hall, Englewood Cliffs. [19] Kalina J. (2011): Facial image analysis in anthropology: A review. Anthropologie 49 (2), [20] Kalina J. (2013): Robustness aspects of knowledge discovery. In Pokorný J., Šaloun P., Paralič J., Horváth T. (Eds.): Datakon a Znalosti 2013, Part II. VŠB-Technická univerzita, Ostrava, [21] Ledoit O., Wolf M. (2004): A well-conditioned estimator for largedimensional covariance matrices. Journal of Multivariate Analysis 88, [22] Martinez W.L., Martinez A.R., Solka J.L. (2011): Exploratory data analysis with MATLAB. 2nd edn. Chapman & Hall/CRC, Boca Raton. [23] MathWorks, Inc., MATLAB 8.1, com/products/matlab. [24] McFerrin L. (2013): Package HDMD. Staženo z org/web/packages/hdmd/hdmd.pdf ( ). [25] Meloun M., Militký J. (2006): Kompendium statistického zpracování dat. Metody a řešené úlohy. Academia, Praha. [26] R Development Core Team: R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, 2012, [27] Rao C.R. (1973): Linear statistical inference and its applications. Wiley, New York. [28] Rencher A.C. (2002): Methods of multivariate analysis. Second edn. Wiley, New York. [29] Řehák J., Řeháková B. (1986): Analýza kategorizovaných dat v sociologii. Academia, Praha. [30] Řezanková H., Húsek D., Snášel V. (2007): Shluková analýza dat. Professional Publishing, Praha. [31] Saad Y. (2011): Numerical methods for large eigenvalue problems. Revised edition. SIAM, Philadelphia. [32] Watkins D.S. (2010): Fundamentals of matrix computations. Third edition. John Wiley & Sons, New York. [33] Zvárová J., Svačina Š., Valenta Z., Berka P., Buchtela D., Jiroušek R., Malý M., Papíková V., Peleška J., Rauch J., Vajda I., Veselý A., Zvára K., Zvolský M. (2009): Systémy pro podporu lékařského rozhodování. Karolinum, Praha. 17
AVDAT Mnohorozměrné metody metody redukce dimenze
AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak
Singulární rozklad. Petr Tichý. 31. října 2013
Singulární rozklad Petr Tichý 31. října 2013 1 Outline 1 Úvod a motivace 2 Zavedení singulárního rozkladu a jeho vlastnosti 3 Výpočet a náklady na výpočet singulárního rozkladu 4 Moor-Penroseova pseudoinverze
Vanda Vintrová, Tomáš Vintr, Hana Řezanková, Vladimír Úradníček. Informační bulletin České statistické společnosti, 1/2014
7 Ročník 25, číslo 1, březen 2014 Informační bulletin České statistické společnosti, 1/2014 POROVNÁNÍ VYBRANÝCH ALGORITMŮ PRO OHODNOCENÍ ODLEHLOSTI VÍCEROZMĚRNÝCH POZOROVÁNÍ COMPARISON OF SELECTED ALGORITHMS
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
Klasifikační metody pro genetická data: regularizace a robustnost
Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační
Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic
Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je
DEFINICE Z LINEÁRNÍ ALGEBRY
DEFINICE Z LINEÁRNÍ ALGEBRY Skripta Matematické metody pro statistiku a operační výzkum (Nešetřilová, H., Šařecová, P., 2009). 1. definice Vektorovým prostorem rozumíme neprázdnou množinu prvků V, na které
Úlohy nejmenších čtverců
Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Vektory Definice 011 Vektorem aritmetického prostorur n budeme rozumět uspořádanou n-tici reálných čísel x 1, x 2,, x n Definice 012 Definice sčítání
Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s
Kapitola 13 Kvadratické formy Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru f(x 1,..., x n ) = a ij x i x j, kde koeficienty a ij T. j=i Kvadratická forma v n proměnných
2. Schurova věta. Petr Tichý. 3. října 2012
2. Schurova věta Petr Tichý 3. října 2012 1 Podobnostní transformace a výpočet vlastních čísel Obecný princip: Úloha: Řešíme-li matematickou úlohu, je často velmi vhodné hledat její ekvivalentní formulaci
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde
5. Singulární rozklad
5. Singulární rozklad Petr Tichý 31. října 2012 1 Singulární rozklad matice Jeden z nejdůležitějších teoretických i praktických nástrojů maticových výpočtů. Umožňuje určit hodnost či normu matice, ortogonální
1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
Singulární rozklad aplikace v image deblurring
Singulární rozklad aplikace v image deblurring M. Plešinger, Z. Strakoš TUL, Fakulta mechatroniky, Liberec AV ČR, Ústav informatiky, Praha 1 Úvod Uvažujme obecnou reálnou matici Pak existuje rozklad A
MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]
MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě
Numerické metody a programování. Lekce 4
Numerické metody a programování Lekce 4 Linarní algebra soustava lineárních algebraických rovnic a 11 a 12 x 2 a 1, N x N = b 1 a 21 a 22 x 2 a 2, N x N = b 2 a M,1 a M,2 x 2 a M,N x N = b M zkráceně A
Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008
Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty študenti MFF 15. augusta 2008 1 14 Vlastní čísla a vlastní hodnoty Požadavky Vlastní čísla a vlastní hodnoty lineárního
EUKLIDOVSKÉ PROSTORY
EUKLIDOVSKÉ PROSTORY Necht L je lineární vektorový prostor nad tělesem reálných čísel R. Zobrazení (.,.) : L L R splňující vlastnosti 1. (x, x) 0 x L, (x, x) = 0 x = 0, 2. (x, y) = (y, x) x, y L, 3. (λx,
Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
Tomáš Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 63 1 2 3 4 5 6 7 8 9 10 11 2 / 63 Aritmetický vektor Definition 1 Aritmetický vektor x je uspořádaná
V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti
Kapitola 5 Vektorové prostory V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti operací sčítání a násobení
Numerické metody a programování
Projekt: Inovace výuky optiky se zaměřením na získání experimentálních dovedností Registrační číslo: CZ.1.7/2.2./28.157 Numerické metody a programování Lekce 4 Tento projekt je spolufinancován Evropským
Základy maticového počtu Matice, determinant, definitnost
Základy maticového počtu Matice, determinant, definitnost Petr Liška Masarykova univerzita 18.9.2014 Matice a vektory Matice Matice typu m n je pravoúhlé (nebo obdélníkové) schéma, které má m řádků a n
Matematika B101MA1, B101MA2
Matematika B101MA1, B101MA2 Zařazení předmětu: povinný předmět 1.ročníku bc studia 2 semestry Rozsah předmětu: prezenční studium 2 + 2 kombinované studium 16 + 0 / semestr Zakončení předmětu: ZS zápočet
MOORE-PENROSEOVA INVERZE MATICE A JEJÍ APLIKACE. 1. Úvod
Kvaternion 1/2013, 7 14 7 MOORE-PENROSEOVA INVERZE MATICE A JEJÍ APLIKACE LADISLAV SKULA Abstrakt V článku je uvedena definice pseudoinverzní matice, ukázána její existence a jednoznačnost a zmíněny dvě
Podobnostní transformace
Schurova věta 1 Podobnostní transformace a výpočet vlastních čísel Obecný princip: Úloha: Řešíme-li matematickou úlohu, je často velmi vhodné hledat její ekvivalentní formulaci tak, aby se řešení úlohy
1 Vektorové prostory.
1 Vektorové prostory DefiniceMnožinu V, jejíž prvky budeme označovat a, b, c, z, budeme nazývat vektorovým prostorem právě tehdy, když budou splněny následující podmínky: 1 Je dáno zobrazení V V V, které
1 0 0 u 22 u 23 l 31. l u11
LU dekompozice Jedná se o rozklad matice A na dvě trojúhelníkové matice L a U, A=LU. Matice L je dolní trojúhelníková s jedničkami na diagonále a matice U je horní trojúhelníková. a a2 a3 a 2 a 22 a 23
SVD rozklad a pseudoinverse
SVD rozklad a pseudoinverse Odpřednesenou látku naleznete v kapitole 12 skript Abstraktní a konkrétní lineární algebra. Jiří Velebil: Lineární algebra 19.12.2016: SVD rozklad a pseudoinverse 1/21 Cíle
Uspořádanou n-tici reálných čísel nazveme aritmetický vektor (vektor), ā = (a 1, a 2,..., a n ). Čísla a 1, a 2,..., a n se nazývají složky vektoru
1 1. Lineární algebra 1.1. Lineární závislost a nezávislost vektorů. Hodnost matice Aritmetické vektory Uspořádanou n-tici reálných čísel nazveme aritmetický vektor (vektor), ā = (a 1, a 2,..., a n ).
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Vlastní číslo, vektor
[1] Vlastní číslo, vektor motivace: směr přímky, kterou lin. transformace nezmění invariantní podprostory charakteristický polynom báze, vzhledem ke které je matice transformace nejjednodušší podobnost
1. Matice a maticové operace. 1. Matice a maticové operace p. 1/35
1. Matice a maticové operace 1. Matice a maticové operace p. 1/35 1. Matice a maticové operace p. 2/35 Matice a maticové operace 1. Aritmetické vektory 2. Operace s aritmetickými vektory 3. Nulový a opačný
Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan. 14.
Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan 14. Vlastní vektory Bud V vektorový prostor nad polem P. Lineární zobrazení f : V
PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti
PROSTORY SE SKALÁRNÍM SOUČINEM Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti 1. (x, x) 0 x L, (x, x) = 0 x = 0, 2. (x, y) = (y, x) x, y L, 3. (λx, y) = λ(x,
1 Báze a dimenze vektorového prostoru 1
1 Báze a dimenze vektorového prostoru 1 Báze a dimenze vektorového prostoru 1 2 Aritmetické vektorové prostory 7 3 Eukleidovské vektorové prostory 9 Levá vnější operace Definice 5.1 Necht A B. Levou vnější
Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.
Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u
Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n
[1] Základní pojmy [2] Matice mezi sebou sčítáme a násobíme konstantou (lineární prostor) měníme je na jiné matice eliminační metodou násobíme je mezi sebou... Matice je tabulka čísel s konečným počtem
Arnoldiho a Lanczosova metoda
Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat
vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).
Řešené příklady z lineární algebry - část 6 Typové příklady s řešením Příklad 6.: Kvadratickou formu κ(x) = x x 6x 6x x + 8x x 8x x vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých
Operace s maticemi. 19. února 2018
Operace s maticemi Přednáška druhá 19. února 2018 Obsah 1 Operace s maticemi 2 Hodnost matice (opakování) 3 Regulární matice 4 Inverzní matice 5 Determinant matice Matice Definice (Matice). Reálná matice
Interpolace, ortogonální polynomy, Gaussova kvadratura
Interpolace, ortogonální polynomy, Gaussova kvadratura Petr Tichý 20. listopadu 2013 1 Úloha Lagrangeovy interpolace Dán omezený uzavřený interval [a, b] a v něm n + 1 různých bodů x 0, x 1,..., x n. Nechť
Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).
Předmět: MA 4 Dnešní látka Vektorový (lineární) prostor (připomenutí) Normovaný lineární prostor Normy matic a vektorů Symetrické matice, pozitivně definitní matice Gaussova eliminační metoda, podmíněnost
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY Jan Krejčí 31. srpna 2006 jkrejci@physics.ujep.cz http://physics.ujep.cz/~jkrejci Obsah 1 Přímé metody řešení soustav lineárních rovnic 3 1.1 Gaussova eliminace...............................
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
15 Maticový a vektorový počet II
M. Rokyta, MFF UK: Aplikovaná matematika III kap. 15: Maticový a vektorový počet II 1 15 Maticový a vektorový počet II 15.1 Úvod Opakování z 1. ročníku (z kapitoly 8) Označení. Množinu všech reálných resp.
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Robust 2014, 19. - 24. ledna 2014, Jetřichovice
K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University
Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,
Úlohy k přednášce NMAG a : Lineární algebra a geometrie a Verze ze dne. května Toto je seznam přímočarých příkladů k přednášce. Úlohy z tohoto seznamu je nezbytně nutné umět řešit. Podobné typy úloh se
Operace s maticemi
Operace s maticemi Seminář druhý 17.10. 2018 Obsah 1 Operace s maticemi 2 Hodnost matice 3 Regulární matice 4 Inverzní matice Matice Definice (Matice). Reálná matice typu m n je obdélníkové schema A =
FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci OBSAH A CÍLE SEMINÁŘE: Opakování a procvičení vybraných
Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,
Vektorový prostor Příklady: Př.1. R 2 ; R 3 ; R n...aritmetický n-rozměrný prostor Dvě operace v R n : součet vektorů u = (u 1,...u n ) a v = (v 1,...v n ) je vektor u + v = (u 1 + v 1,...u n + v n ),
ALGEBRA. Téma 5: Vektorové prostory
SLEZSKÁ UNIVERZITA V OPAVĚ Matematický ústav v Opavě Na Rybníčku 1, 746 01 Opava, tel. (553) 684 611 DENNÍ STUDIUM Téma 5: Vektorové prostory Základní pojmy Vektorový prostor nad polem P, reálný (komplexní)
Úvod do lineární algebry
Úvod do lineární algebry 1 Aritmetické vektory Definice 11 Mějme n N a utvořme kartézský součin R n R R R Každou uspořádanou n tici x 1 x 2 x, x n budeme nazývat n rozměrným aritmetickým vektorem Prvky
Klasifikace a rozpoznávání. Extrakce příznaků
Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám
Vlastní čísla a vlastní vektory
Kapitola 15 Vlastní čísla a vlastní vektory V této a následujících kapitolách budeme zkoumat jeden z nejdůležitějších pojmů tohoto kurzu. Definice15.1 Buď A:V Vlineárnízobrazení,Vvektorovýprostornad tělesem
1 Projekce a projektory
Cvičení 3 - zadání a řešení úloh Základy numerické matematiky - NMNM20 Verze z 5. října 208 Projekce a projektory Opakování ortogonální projekce Definice (Ortogonální projekce). Uvažujme V vektorový prostor
Aplikovaná numerická matematika - ANM
Aplikovaná numerická matematika - ANM 3 Řešení soustav lineárních rovnic iterační metody doc Ing Róbert Lórencz, CSc České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových
a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.
Výpočet vlastních čísel a vlastních vektorů S pojmem vlastního čísla jsme se již setkali například u iteračních metod pro řešení soustavy lineárních algebraických rovnic. Velikosti vlastních čísel iterační
Univerzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat
Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat Čtvercová matice n n, např. může reprezentovat: A = A A 2 A 3 A 2 A 22 A 23 A 3 A 32 A 33 matici koeficientů soustavy n lineárních
Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008
Učební texty k státní bakalářské zkoušce Matematika Skalární součin študenti MFF 15. augusta 2008 1 10 Skalární součin Požadavky Vlastnosti v reálném i komplexním případě Norma Cauchy-Schwarzova nerovnost
1 Řešení soustav lineárních rovnic
1 Řešení soustav lineárních rovnic 1.1 Lineární rovnice Lineární rovnicí o n neznámých x 1,x 2,..., x n s reálnými koeficienty rozumíme rovnici ve tvaru a 1 x 1 + a 2 x 2 +... + a n x n = b, (1) kde koeficienty
Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.
Matice Definice. Maticí typu m n nazýváme obdélníkové pole, tvořené z m n reálných čísel (tzv. prvků matice), zapsaných v m řádcích a n sloupcích. Značíme např. A = (a ij ), kde i = 1,..., m, j = 1,...,
[1] Motivace. p = {t u ; t R}, A(p) = {A(t u ); t R} = {t A( u ); t R}
Vlastní číslo, vektor motivace: směr přímky, kterou lin. transformace nezmění invariantní podprostory charakteristický polynom báze, vzhledem ke které je matice transformace nejjednodušší podobnost s diagonální
a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:
Řešené příklady z lineární algebry - část 1 Typové příklady s řešením Příklady jsou určeny především k zopakování látky před zkouškou, jsou proto řešeny se znalostmi učiva celého semestru. Tento fakt se
2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro
Cvičení 1 Základy numerické matematiky - NMNM201 1 Základní pojmy opakování Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro libovolný skalár α C následující podmínky:
11 Analýza hlavních komponet
11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu
Aplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).
Předmět: MA 4 Dnešní látka Lineární (vektorový) prostor Normovaný lineární prostor Normy matic a vektorů Symetrické matice, pozitivně definitní matice Gaussova eliminační metoda, podmíněnost matic Četba:
Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29
Matematika 1 11. přednáška MA1 1 Opakování 2 Determinant 3 Adjungovaná matice 4 Cramerovo pravidlo 5 Vlastní čísla a vlastní vektory matic 6 Zkouška; konzultace; výběrová matematika;... 11. přednáška (15.12.2010
Základy matematiky pro FEK
Základy matematiky pro FEK 2. přednáška Blanka Šedivá KMA zimní semestr 2016/2017 Blanka Šedivá (KMA) Základy matematiky pro FEK zimní semestr 2016/2017 1 / 20 Co nás dneska čeká... Závislé a nezávislé
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo
0. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo (PEF PaA) Petr Gurka aktualizováno 9. prosince 202 Obsah Základní pojmy. Motivace.................................2 Aritmetický vektorový
Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
Vlastní čísla a vlastní vektory
Kapitola 11 Vlastní čísla a vlastní vektory Základní motivace pro studium vlastních čísel a vektorů pochází z teorie řešení diferenciálních rovnic Tato teorie říká, že obecné řešení lineární diferenciální
VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A
VEKTORY Vektorem se rozumí množina všech orientovaných úseček, které mají stejnou velikost, směr a orientaci, což vidíme na obr. 1. Jedna konkrétní orientovaná úsečka se nazývá umístění vektoru na obr.
Vlastní čísla a vlastní vektory
Vlastní čísla a vlastní vektory 1 Motivace Uvažujme lineární prostor všech vázaných vektorů v rovině, které procházejí počátkem, a lineární zobrazení tohoto prostoru do sebe(lineární transformaci, endomorfismus)
2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC
.6. VLASTNÍ ČÍSLA A VEKTORY MATIC V této kapitole se dozvíte: jak jsou definována vlastní (charakteristická) čísla a vektory čtvercové matice; co je to charakteristická matice a charakteristický polynom
Definice : Definice :
KAPITOLA 7: Spektrální analýza operátorů a matic [PAN16-K7-1] Definice : Necht H je komplexní Hilbertův prostor. Řekneme, že operátor T B(H) je normální, jestliže T T = T T. Operátor T B(H) je normální
Lineární algebra - I. část (vektory, matice a jejich využití)
Lineární algebra - I. část (vektory, matice a jejich využití) Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 2. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 40 Obsah 1 Vektory
Kapitola 11: Vektory a matice 1/19
Kapitola 11: Vektory a matice 1/19 2/19 Prostor R n R n = {(x 1,..., x n ) x i R, i = 1,..., n}, n N x = (x 1,..., x n ) R n se nazývá vektor x i je i-tá souřadnice vektoru x rovnost vektorů: x = y i =
Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )
Příklady řešené na cvičení LA II - LS 1/13 Zdrojem většiny příkladů je sbírka úloh http://kam.mff.cuni.cz/~sbirka/ 1. cvičení (..13) 1. Rozhodněte, které z následujících operací jsou skalárním součinem
maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést
Úlohy k zamyšlení 1. Zdůvodněte, proč třetí řádek Hornerova schématu pro vyhodnocení polynomu p v bodě c obsahuje koeficienty polynomu r, pro který platí p(x) = (x c) r(x) + p(c). 2. Dokažte, že pokud
Program SMP pro kombinované studium
Zadání příkladů k procvičení na seminář Program SMP pro kombinované studium Nejdůležitější typy příkladů - minimum znalostí před zkouškovou písemkou 1) Matice 1. Pro matice 1 0 2 1 0 3 B = 7 3 4 4 2 0
8 Matice a determinanty
M Rokyta, MFF UK: Aplikovaná matematika II kap 8: Matice a determinanty 1 8 Matice a determinanty 81 Matice - definice a základní vlastnosti Definice Reálnou resp komplexní maticí A typu m n nazveme obdélníkovou
Vícerozměrné statistické metody
Vícerozměrné statistické metody Ordinační analýzy principy redukce dimenzionality Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Ordinační analýza a její cíle Cíle ordinační analýzy
Fisherův exaktní test
Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým
Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru
2. Systémy lineárních rovnic V této kapitole se budeme zabývat soustavami lineárních rovnic s koeficienty z pole reálných případně komplexních čísel. Uvádíme podmínku pro existenci řešení systému lineárních
11MAMY LS 2017/2018. Úvod do Matlabu. 21. února Skupina 01. reseni2.m a tak dále + M souborem zadané funkce z příkladu 3 + souborem skupina.
11MAMY LS 2017/2018 Cvičení č. 2: 21. 2. 2018 Úvod do Matlabu. Jan Přikryl 21. února 2018 Po skupinách, na které jste se doufám rozdělili samostatně včera, vyřešte tak, jak nejlépe svedete, níže uvedená
Báze a dimenze vektorových prostorů
Báze a dimenze vektorových prostorů Buď (V, +, ) vektorový prostor nad tělesem (T, +, ). Nechť u 1, u 2,..., u n je konečná posloupnost vektorů z V. Existují-li prvky s 1, s 2,..., s n T, z nichž alespoň
Kapitola 11: Vektory a matice:
Kapitola 11: Vektory a matice: Prostor R n R n = {(x 1,, x n ) x i R, i = 1,, n}, n N x = (x 1,, x n ) R n se nazývá vektor x i je i-tá souřadnice vektoru x rovnost vektorů: x = y i = 1,, n : x i = y i
z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.
KOMLEXNÍ ČÍSLA C = {a + bi; a, b R}, kde i 2 = 1 Číslo komplexně sdružené k z = a + bi je číslo z = a bi. Operace s komplexními čísly: z = a + bi, kde a, b R v = c + di, kde c, d R Sčítání Odčítání Násobení
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu.
Determinanty Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Determinanty Definice determinantu Sarrusovo a křížové pravidlo Laplaceův rozvoj Vlastnosti determinantu Výpočet determinantů 2 Inverzní
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO