Analýza hlavních komponent - PCA

Rozměr: px
Začít zobrazení ze stránky:

Download "Analýza hlavních komponent - PCA"

Transkript

1 Červeně označené slide jsou jen pro doplnění informací a nezkouší se. sloupce Analýza hlavních komponent - PCA řadky Jiří Militky Analýza experimentálních dat IV

2 Metoda PCA Cílem analýzy hlavních komponent je především zjednodušení popisu skupiny vzájemně lineárně závislých, tedy korelovaných znaků. echniku lze popsat jako metodu lineární transformace původních znaků na nové, nekorelované proměnné, nazvané hlavní komponenty. Každá hlavní komponenta představuje lineární kombinací původních znaků. Základní charakteristikou každé hlavní komponenty je její míra variability tj. rozptyl. Hlavní komponenty jsou seřazeny dle důležitosti tj. dle klesajícího rozptylu, od největšího k nejmenšímu

3 1 Využití PCA Redukce počtu znaků bez velké ztráty informace, esty vícerozměrné normality. Průzkumová analýza vícerozměrných dat. Snížení rozměrnosti pro konstrukci ukazatelů jako lineárních kombinací původních znaků. Míra jakosti - první hlavní komponenta (pokud původní znaky charakterizují její složky). Zobrazení vícerozměrných dat - projekce do roviny Jsou zachovány vzdálenosti a úhly mezi jednotlivými objekty. Regrese s využitím hlavních komponent umožňuje odstranění problémů s multikolinearitou a přebytečným počtem vysvětlujících proměnných.

4 Podstata PCA Základním cílem PCA je transformace původních znaků x i, j = 1,..., m, do menšího počtu latentních proměnných y j (hlavních komponent). yto latentní proměnné mají vhodnější vlastnosti: je jich výrazně méně, vystihují téměř celou proměnlivost původních znaků jsou vzájemně nekorelované. Jde o lineární kombinace původních proměnných: první hlavní komponenta y 1 popisuje největší část rozptylu původních dat, druhá hlavní komponenta y popisuje největší část rozptylu neobsaženého v y 1. Je kolmá na první třetí hlavní komponenta y 3 popisuje největší část rozptylu neobsaženého v y 1 a y. Je kolmá na první i druhou hlavní komponentu atd.

5 Zadání PCA var. 3 var. var. 1

6 Centrování var. 3 var. 3 průměr var. var. var. 1 var. 1

7 Elementární úvod I Jak nahradit n-tici m-rozměrných dat {x 1,.., x n } jedním vektorem x 0? Kritérium pro x 0 může být kvadratická odchylka J n 0( x0) = x0 xk. k = 1 Z nulity první derivace dle x 0 vyjde jako optimální vektor průměrů n 1 x = m = x n 0 k k=1 o je nula-rozměrná náhrada dat. Jedno- rozměrná náhrada dat je projekce dat na přímku procházející bodem průměru dat a vystihující maximum variability

8 Elementární úvod II Označme jednotkový vektor ve směru této přímky jako e. Rovnice přímky je pak Pro nalezení optimálních Z podmínky je je třeba minimalizovat funkci J1( a1,..., a, e) = m+ a e x J / 0 1 a k = a k x = m + ae n n k k k = 1 a k k = e ( x m) Řešení metodou nejmenších čtverců je: projekce the vektoru x k na přímku ve směru e, která prochází bodem průměru dat. dimense přímky je rovna 1

9 První PC var. 3 t i1 PC 1 (t 1 p 1 ) var. Skóre hodnota (t i1 ) pro bod (i) je vzdálenost projekce tohoto bodu na první hlavní komponentu od počátku. (i) var. 1 PC 1 je první latentní proměnná v novém souřadnicovém systému.

10 Elementární úvod II 1 a k Po dosazení za do J 1 n n n k k k k k= 1 k= 1 k= 1 J ( e) = a e a e ( x m) + x m n n n n n ak ak xk m [ e ( xk m)] xk m k= 1 k= 1 k= 1 k= 1 k= 1 = + = + n n k k k k= 1 k= 1 = e ( x m)( x m) e+ x m = e Se + x m n k = 1 k n S= ( x m)( x m). Rozptylová matice S je (n-1) násobek výběrové kovarianční matice k = 1 k k

11 Elementární úvod III Vektor e minimalizující J 1 tedy maximalizuje omezením e = 1. Nechť je Lagrangeův multiplikátor λ u = ese λee Differenciace podle e: u / e = Se λe Se = λe e Se = λ e Se Z nulity této derivace vyjde, že e je vlastní vektor matice S, protože dimense roviny je rovna s

12 Druhá PC var. 3 PC 1 Druhá hlavní komponenta (PC ) je kolmá na první hlavní komponentu PC t i1 t i var. Skóre hodnota (t i ) pro bod (i) je vzdálenost projekce tohoto bodu na druhou hlavní komponentu od počátku. (i) var. 1

13 Zátěže var. Zátěže (p) vyjadřují vliv původních znaků na hlavní komponenty PC (podobnost směrů). Jsou vyjádřeny jako kosíny úhlů mezi původními znaky a jednotlivými hlavními komponentami. θ PC 1 p = cos θ p i = 1 (i) t i1 θ 1 var. 1

14 Elementární úvod IV Var X PC PC 1 Rozšíření na d rozměrnou projekci: ' d ' = + i i kde i= 1 n x m ae d m Kriteriální podmínka: J d ' ' d = + i m a e x k= 1 i= 1 k i k e,e,...,e je minimalizována, pokud jsou vektory 1 d ' vlastními vektory matice S odpovídající maximálním vlastním číslům. i Hlavní komponenty jsou = e ( x -m) a k i k Data ransformace do hlavních komponent se nazývá také Karhunen-Loeveova nebo Hotellingova transformace Var X 1

15 Chyba aproximace Pokud je d J ' d ' < = m n k = 1 i= d + 1 m i= d + 1 ' m vzniká zanedbáním nevýznamných členů chyba: ' a i k e n i ( k )( k ) i k = 1 m m eise i i ' ' i= d + 1 i= d + 1 i = e x m x m e = = λ Jde o součet nejmenších vlastních čísel

16 PCA jako maximalizační úloha Hledání směrů maximální proměnlivosti : Projekce dat do vhodných směrů ( ) ( ) ( ) P x x = x x u u u i i

17 První hlavní komponenta I Lineární kombinace vstupních znaků, která má největší rozptyl y 1 m v1j xcj j = 1 = = kde sloupcový vektor původních znaků x C obsahuje původní znaky v odchylkách od středních hodnot (centrované hodnoty). x D ( y1) = D ( v1 xc) = E [( v1 xc) ( v1 xc) ] = Rozptyl: v1 E ( xc xc ) v1 = v1 C v1 Vektor koeficientů je v 1 a C je kovarianční matice. 1 v x = ( x - µ, x - µ,..., x - µ ) C 1 1 m m C

18 První hlavní komponenta II Požaduje se maximalizace rozptylu D( y1) při omezení na velikosti v 1. tj. v 1 v 1 = 1. Maximalizuje se funkce m m m 1 1 C 1 l v1i Cij v1j l 1 v1i i=1 j=1 i=1 G = v v - ( v v - 1) = - ( - 1) kde l 1 je Lagrangeův multiplikátor. Pro vektor v 1 maximalizující G 1 pak platí podmínka 1 G v 1 = Cv - l v = [ C- l E] v = Protože v 1 je nenulové, má platit, že (C - l 1 E) musí být singulární, což znamená, že det ( C - l v ) = 0 ento determinant je obecně vzhledem k proměnné l 1 polynomem m-tého stupně s kořeny λ 1 = > λ =>... λ m. 1 1

19 První hlavní komponenta III Po úpravě vyjde: [ C - l E ] v = 0, v [ C - l E ] v = tedy v Cv = l v v = l = D( y ) Rozptyl první hlavní komponenty je tedy roven l 1 a bude maximální při volbě l 1 = λ 1, tj. největšímu kořenu polynomu det ( C - l v ) = Vektor v 1 je pak normalizované řešení pro v = 1 1 v1 Ze spektrálního rozkladu matice C ve tvaru plyne, že v 1 je vlastní vektor, odpovídající vlastnímu číslu λ 1. v Cv = λ Obecně platí, že vlastní vektor y odpovídající největšímu vlastnímu číslu pozitivně semidefinitní symetrické matice A je řešením optimalizační úlohy max y Ay při y = 1

20 První PC PC1= y 1 objasňuje maximum variability původních dat Celkový průměr

21 Druhá hlavní komponenta y Druhá hlavní komponenta j Cj C j = 1 je lineární kombinace vstupních znaků, kolmá na první hlavní komponentu: tj. v1 v = 0 Maximalizuje rozptyl D( y) = VC V za těchto omezujících podmínek v v = 1 a v1 v = 0 Funkce, která se má maximalizovat má tvar m = v x = v x G = C - l ( - 1) - l C v v v v c1v v1 Poslední člen vznikl z podmínky ortogonality hlavních komponent l a l C1 jsou Lagrangeovy multiplikátory. Derivací podle V pak rezultuje po úpravách det(c - l E) = 0. edy l = λ je druhé nejvyšší vlastní číslo a v je odpovídající vlastní vektor.

22 Druhá PC PC = y obsahuje maximum variability nezahrnuté v y 1. y 1 je ortogonální k y Celkový průměr

23 Obecná hlavní komponenta V j-tém kroku je třeba maximalizovat rozptyl při omezující podmínce v j v j = 1 C a celkem j-1 podmínkách ortogonality vi vj = 0 j c c i λivv j i V je (m x m) ortogonální matice Λ je (m xm) diagonální matice D( y ) = j j v Cv det( - l j E) v j = 0 E( v xx v) = = 0 pro i = 1,..., j - 1 j Podobně jako u předchozích hlavních komponent je l j = λ j (roven nejvyššímu zbylému kořenu) a v j je odpovídající vlastní vektor. Řešení s využitím metody Lagrangeových multiplikátorů vede ke zjištění, že vektor v j je vlastní vektor kovarianční matice C, kterému odpovídá j-té největší vlastní číslo λ j. Využívá se tedy známého rozkladu C = VΛ V

24 Variabilita y.. PC, V.. faktorové zátěže y= Vx c Rozptyl D(y j ) = λ j je roven j-tému vlastnímu číslu. Celkový rozptyl m všech hlavních komponent je roven tr C = λ kde tr (.) označuje stopu matice. Podíl variability, objasněný j-tou hlavní komponentou y j je pak λ j P j = m λ Kovariance mezi j-tou hlavní komponentou a vektorem znaků x C jsou rovny cov ( x, y ) = cov ( x, x ) = E ( ) v = Cv = λ v i=1 C j C v j C xx C C j j j j j i=1 j

25 Korelace Pro korelační koeficient r(x C, y j ) platí, že λ j ji r( xc, y j ) = = σx λj i v Je zřejmé, že pokud se místo centrovaných znaků x C použijí standardizované znaky nazývané také normované či normalizované znaky a označované vyjde korelační koeficient roven x N λ j σ x - µ x - µ x - µ =,,..., σx1 σx σxm x i v 1 1 m m cov ( x, y ) = r(, y ) = v λ * * N j xn j ji j V ji * a λ j * odpovídají rozkladu korelační matice R. Náhrada kovarianční matice C maticí korelační R zjednodušuje interpretaci a odstraňuje závislost na jednotkách měření. ji

26 Varianty PCA

27 PCA a vybočující body

28 Vztahy mezi dvěma proměnnými lineární regrese nelineární regrese hlavní komponenty hlavní křivky

29 Postup PCA pro ordinaci Ordinace: vhodná D projekce vícerozměrných dat C1 C C3 C4 C5 C6 Podobnosti Korelace 6 6 korelace 5 Průmět dat do nových os (vlastní vektory) Výpočet vlastních vektorů s největšími vlastními čísly: Lineární kombinace Ortogonalita

30 Dva znaky I Dva znaky x 1 a x s kovarianční maticí C a korelační maticí R σ 1 C1 1 r C = R = C1 σ r 1 PCA pro korelační maticí Podmínka pro výpočet vlastních čísel Po úpravě (1 - l) - r = l r det ( R - l E ) = det = 0 r 1 - l l - l + 1- r = 0

31 Dva znaky II Řešení kvadratické rovnice l - * l + 1- r [ ] ( 1- r ) =1 r 1 = λ = l 1 = 0 = = 0.5 [ ] ( 1- r ) =1 r l λ Vlastní vektory jsou řešením homogenní soustavy rovnic ( R - λ E ) v = 0, i = 1, i i

32 Dva znaky III Normalizovaný vlastní vektor v 1 * má tvar Normalizovaný vlastní vektor v * má tvar v * 1 = -1/ r + ( 1-1) λ r = λ r + ( 1 1-1) λ 1 v -r 1 + (1 - r - 1) - r = = r + (1 - r - 1) 1 (1 - r - 1) * -1/

33 Dva znaky IV První PC Druhá PC 1 y1 = ( z + ) 1 z = ( x - E( x )) / D( x ) Aplikace normalizovaných znaků vede k nezávislosti PC na korelaci v původních datech. Dochází k pootočení systému souřadnic na úhly 45 o. y = ( 1 = ( z - ) z1 - E( )) / z z x x x ) cosα = 1/ D(

34 Definice skórů Prvky vlastních vektorů představují směrové kosíny nového souřadnicového systému hlavních komponent vzhledem k souřadnicovému systému původních znaků. Pro rozlišení mezi transformovanými znaky a transformovanými objekty se používá označení hlavní komponenty pro transformované znaky a skóry hlavních komponent (komponentní skóry) pro transformované objekty. Jsou-li k dispozici hodnoty m znaků pro nějaký i-tý objekt x i = (x i1,..., x im ) a známe-li vektor středních hodnot μ = (μ 1,..., μ m) a vlastní vektory v j, j = 1,..., m, je možné určit složky komponentních skórů objektů t i = (t 1i,..., t mi ) ze vztahu t i i i = v ( x - μ )

35 Výpočet skórů I t t Pro dvojrozměrný případ x 1 a x využijme normovaných znaků z 1 a z pro výpočet komponentních skórů pro objekty O 1 = (1, 1), O = (0, 1), O 3 = (1, 0), O 4 = (0.5, 1) V = ( v1 v) = a μ 1 1 z = 0 jsou komponentní skóry = VO= = / = = t 1/ 4 t / = = / /( ) = = /( )

36 t Výpočet 0.7 t 4 skórů II 0.7 t 1 Ke stejným výsledkům vede dosazení do vztahů pro hlavní komponenty 1 1 = ( z1+ z ), y= ( z - z ) a za z 1 a z souřadnic objektů O 1,..., O 4. Například pro objekt O 4 je y y14 = t14 = ( ) = 1 1 y4 = t4 = (1-0.5)= Komponentními skóry objektů se také často označují hlavní osy. V případě n objektů tvoří jednotlivé komponentní skóry t i řádky matice t1 =... t n t 3 matice komponentních skórů

37 Populační PCA Vektor znaků x c = (x 1 - μ 1,..., x m - μ m ) je tvořen m-ticí náhodných proměnných s vícerozměrným normálním rozdělením N(0, C). Pro definici vektoru populačních hlavních komponent lze použít obecné definice y = W x Váhová matice W rozměru (m xm) souvisí s různými normalizačními podmínkami, týkajícími se rozptylu hlavních komponent a je ve tvaru W = C VM V (m x m) obsahuje ve sloupcích vlastní vektory matice C a M je diagonální matice řádu m

38 Normalizace Pro všechny normalizace má vektor hlavních komponent vícerozměrné normální rozdělení N(0, W C C W C ), lišící se kovarianční maticí D(y). I. Standardní normalizační podmínka D(y I ) = Λ k vede k volbě M = E, tj. jednotkové matici a W I = V. ato volba M zajišťuje, aby zůstala zachována Eukleidovská vzdálenost, protože y I y I = x C x C. Navíc platí, že E(y I ) = 0. II. Jednotková normalizační podmínka D(y II ) = E (tj. rozptyly hlavních komponent jsou jednotkové) vede k volbě M = Λ -1/ a W = V Λ -1/. ato volba normalizace zajišťuje zachování Mahalanobisovy vzdálenosti, protože -1 y y = x II II CC x III. Je možné také použít normalizační podmínku typu D(y III ) = Λ, pro kterou je M = Λ 1/ a tedy W = VΛ 1/. Pro tento případ platí, že y y x III = xc III C C C

39 Aproximace PCA Místo matice V se použije matice V k rozměru (m x k), obsahující ve sloupcích pouze k vlastních vektorů a místo matice Λ se použije Λ k. Po extrakci k hlavních komponent z kovarianční matice C zbývá ještě reziduální (zbytková) kovarianční matice C = C - V Λ V R k k K y = ( V k Mk) xc Obecně platí, že Vzhledem k ortogonalitě sloupců matice V k resp. diagonalitě matice M k je pak -1-1 xˆ C = Vk Mk y = Vk Mk Mk Vk xc = Vk Vk xc Vektor xc ˆ vlastně odpovídá predikci z lineárního regresního modelu.

40 Lineární regrese I Optimální rekonstrukce x = μ + f( V) + ε ε je možno chápat jako chybu rekonstrukce. Je zřejmé, že f( V) = Vk V. Za předpokladu, že ε má normální rozdělení s kovarianční maticí D(ε) = σ E m a nulovým vektorem středních hodnot E(ε) = 0, lze pro odhad matice V použít kritérium MNČ S( V) = E x - f( V) = E x - V y = C k I E [( xc - Vk Vk xc) ( xc - Vk Vk xc)] kritérium MNČ: tr(.) je stopa matice S( V) = tr ( C) - tr ( Vk C Vk) tr ( V C ) = tr (D( y )) k Vk I = tr (D( xˆ C)) = k i=1 λ i k x

41 Lineární regrese II Minimalizace střední chyby rekonstrukce vektoru x C vede k požadavku maximalizace rozptylů hlavních komponent, resp. maximalizaci rozptylů predikce. Na úlohu PCA lze tedy nahlížet jako na problém maximalizace rozptylů hlavních komponent (klasický přístup) nebo minimalizace vzdáleností mezi x a lineárním regresním modelem (lineární regrese). Podmínka minimální vzdálenosti se také týká minimalizace délek projekcí x na hlavní komponenty y (minimalizace Eukleidovských vzdáleností). Podmínka, že D(ε) = σ E m (tzv. izotropní případ) implikuje, že kovarianční matice C má tvar C = Vk Vk + σ E

42 Lineární regrese III Pro kovarianční matici D(ε) = E(ε ε ) = C ε vede úloha rekonstrukce ˆx C k minimalizaci vážených nejmenších čtverců -1 S( V) = E [( xc - xˆc) Cε ( xc - xˆc)] o je běžné ve faktorové analýze. Má-li náhodný vektor x C normální rozdělení, tj. x c ~ N(0, C) je i podmíněné rozdělení p(x*/ y II ) normální ve tvaru -m/ 1 p ( xc y II) = ( π σ ) exp - ( xc - Vk yii) ( xc - Vk yii) σ Rozdělení vektoru hlavních komponent je také normální y II ~ N(0, E). yto pravděpodobnostní úvahy naznačují, že odhady získané metodou nejmenších čtverců resp. vážených nejmenších čtverců jsou zároveň maximálně věrohodné odhady (pravděpodobnostní PCA).

43 Lineární regrese III e = xc - xˆ C = xc - Vk Vk xc = xc ( E - Vk Vk) Vektor reziduí Matice ( - ) E Vk V = V V Pro reziduální součet čtverců platí H k k k takže C k C k je idempotentní, protože odpovídá projekci vektoru x c do prostoru, který je ortogonálním doplňkem podprostoru k hlavních komponent. Projekční matice do podprostoru k hlavních komponent je pak ˆx = H x RSC = ( x - xˆ ( x - xˆ ) = x ( E - V V ) x C C) C C C k k C Pokud se pracuje s výběrovou matici X C je RSC (při náhradě vektoru x C i-tým řádkem matice X C ) reziduální součet čtverců pouze pro i-tý objekt.

44 Lineární regrese IV Kromě RSC je možné použít jako míru neadekvátnosti popisu dat pomocí prvních k hlavních komponent součet čtverců posledních (m - k) hlavních komponent. edy pro případ jednotkové normalizační podmínky D(y II ) = E k je mírou neadekvátnosti rovna NE m k 1 yiii xc C x C yiii i= k+ 1 i= 1 = = Lze ukázat, že míra NE má χ (m-k) rozdělení s m-k stupni volnosti. Platí pro populační hlavní komponenty, kdy jsou složky vektoru x C náhodné veličiny a jsou známy jak střední hodnoty μ j, j = 1,..., m, tak i kovarianční matice C.

45 Výběrová PCA Chování náhodného vektoru se posuzuje na základě výběru velikosti n tj. matice X (n x m), obsahující pro n objektů hodnoty m znaků. ato situace je běžná také při nepravděpodobnostním přístupu, kdy objekty netvoří náhodný výběr. V obou případech se pak pracuje s průměry, j = 1,..., m, a výběrovou kovarianční maticí S. x j Vlastní vektory a vlastní čísla z rozkladu S = VΛV jsou odhady. Výhodou je, že při náhradě x c ve výše uvedených vztazích i-tým řádkem matic X (tj. i-tým objektem) a převedení na sloupcový vektor, je možné snadno určit skóry hlavních komponent a další charakteristiky pro každý objekt zvlášť. Je možné také určit skóry hlavních komponent pro výběrový průměr a provést jeho rekonstrukci z menšího počtu hlavních komponent.

46 PC a řízení jakosti I Značnou výhodou je využití výpočtu skórů hlavních komponent pro jednotlivé objekty při řízení jakosti s využitím Hotellingových vzdáleností. Pro i-tý objekt je vzdálenost od střední hodnoty (tj. požadovaného stavu) rovna = y y i II,i II,i kde y II,i je i-tý vektor prvních k hlavních komponent pro i-tý objekt. Zobecněná Mahalanobisova vzdálenost výběru od střední hodnoty n je pak d = 0 i=1 ato veličina má χ nk rozdělení s n k stupni volnosti. Pro výběrový průměr x jsou hlavní komponenty i y P = W x

47 PC a řízení jakosti II Jde o lineární transformaci, takže Vzdálenost d = n y y P P P y P n = yi / n i=1 je pak zobecněnou vzdáleností mezi výběrovým průměrem a populační střední hodnotou. ato veličina má χ k rozdělení s k stupni volnosti. Míra variability výběru kolem výběrového průměru je pak d v = d 0 - d P a má χ (n-1)k rozdělení s (n - 1)k stupni volnosti. Rozdělení vzdáleností d je založeno na předpokladu normality a náhodného výběru. Vzdálenosti d v a d P jsou vícerozměrné analogie pro regulační diagramy x a s.

48 Scores plot Redukované skóry PC Acute Chronic Skóry = X V (n x m) = (n x m)*(m x m) Hodnoty PC pro všechny objekty Rekonstrukce dat snížení rozměrnosti Snížení počtu komponent: Výběr významných komponent (p) Nahrazení matice zátěží V (m x m) redukovanou maticí zátěží V f (m x p) Výpočet redukovaných skórů c = X c PC 1 = XV f c f V

49 Redukce počtu PC I Procento variability objasněné j-tou hlavní komponentou P j = λ j m λ j i=1 100 Graf úpatí uspořádaná vlastní čísla λ 1 => λ =>... λ m. Je vidět rozdíl mezi důležitými a nevýznamnými PC Často postačuje pouze malý počet hlavních komponent k objasnění prakticky celé variability dat

50 Redukce počtu PC II Výběr prvních několik hlavních komponent k jako představitele m-tice původních znaků: (1) Výběr pouze k-tice komponent, které objasňují zadané procento P variability původních znaků. Obyčejně se volí P = 70 až 90%. () Vyloučení těch komponent, kterým odpovídají vlastní čísla m m menší než průměrná hodnota λ i /m λi = tr ( S) i=1 i=1 Pokud se provádí PCA pro korelační matici R, je tr (R) = m a průměrná hodnota je rovna jedné. o vede k jednoduchému pravidlu vyloučit hlavní komponenty, pro které jsou vlastní vektory menší než 1. Lépe je vypouštět komponenty, pro které jsou vlastní čísla menší než 0.7.

51 3.5 Scree Plot Redukce počtu PC III Eigenvalue Component Number Použití redukovaných zátěží vede k diferenci mezi původní a rekonstruovanou maticí dat. Centrovaná matice X C se rozkládá na matici signálu obsahující součin skórů (n x k) a zátěží V k (k x m) a chybovou maticí O (n x m). X C = V + O k

52 S( µ, y, V ) = I k (xi - µ - Vk yii ) (xi - µ - Vk yii) Bilineární regresní model Model X C = V k + O má jako parametry skóry, a vlastní vektory V k. X Cr Účelem je minimalizace délky O nebo vzdálenosti dist (X C - V k ). Výsledek je stejný jako maximalizace rozptylu. Matice reziduí n i=1 = V = X V V k C k k r = c cr = c = c ( f k k ) k O X X X V X E V V

53 Redukce počtu proměnných I Pro kontrolu toho, jaké změny způsobí vynechání některých znaků se s výhodou používá matic komponentních skórů (m) rozměru (n x m) pro všech m znaků a komponentních skórů (q) rozměru (nxq) pro vybranou podmnožinu q znaků. Podobnost mezi konfigurací (m) a (q) se posuzuje na základě Prokrustovy analýzy M = tr (m) (m) + (q) (q) + Z kde Z je matice singulárních hodnot SVD rozkladu matice (q) (m), tj. (q) (m) = UZV kde U U = E, V V = V V = E a Z je diagonální matice. Čím je M menší, tím je konfigurace (m) bližší konfiguraci (q). Zkoumání všech možných kombinací všech podmnožin m znaků je velmi náročné.

54 Redukce počtu proměnných II echnika zpětné eliminace: 1. V prvním kroku se eliminuje ten znak, který má nejmenší M pro všechna q = m - 1., Ve druhém kroku se dosadí za (m) matice (m-1) a zase se eliminuje znak, kterému odpovídá nejmenší M. ímto postupem se vlastně v každém kroku posuzují konfigurace, lišící se pouze přítomností jednoho znaku. Při praktických výpočtech lze využít efektivního algoritmu SVD pro případ vypouštění jednotlivých znaků. Znaky s nízkou variabilitou respektive malou hodnotou poměru signál/šum jsou parazitní. Při použití škálování, tj. práci s korelační maticí pak tyto proměnné uměle získávají na významu. o znamená, že při výpočtu je třeba vycházet z kovarianční matice S.

55 PCA a SVD I Z pohledu lineární algebry je výhodné použít SVD (metoda singular value decomposition) původní centrované matice X C. Je známo, že SVD matice X C je vyjádřená rovnicí XC = U DV Jde tedy o rozklad matice X c na ortogonální matici U řádu (n x m), ortogonální matici V rozměru (m x m) a diagonální matici D řádu (m x m), jejíž diagonální prvky d 1 => d =>... =>d m se označují jako singulární hodnoty. Vzhledem k ortogonalitě sloupců matic U a V platí, že U U = V V = E. Matice U obsahuje jako sloupce levé singulární vektory U j a matice V obsahuje jako sloupce pravé singulární vektory V j. yto vektory jsou vzájemně ortogonální, jednotkové a definují speciální báze prostoru pro znázornění objektů (U), resp. znaků (V).

56 PCA a SVD II Významnou vlastností SVD je možnost rekonstrukce matice X c k pomocí matice ˆX nižší hodnosti k, Xˆ C = d Ui i Vi i=1 Analogicky jako u hlavních komponent se tedy rozkládá matice ˆXC na součet matic U i d i V i hodnosti 1. Platí, že ˆXC je matice hodnosti k, která je nejblíže k matici X C ve smyslu Eukleidovských vzdáleností. X = n S= VDU U DV = C XC V D V S využitím pravých singulárních vektorů lze psát V SV= D = Λ

57 PCA a SVD III Z SVD plyne zajímavá rovnost = X V = U D, takže komponentní skóry t j = d j U j, j = 1,..., m, lze určit velmi snadno bez násobení matic. Pokud se provede řádkové centrování matice X (odečítání řádkových průměrů přes všechny znaky), je matice X RC X RC až na násobivou konstantu rovna kovarianční matici S 0 pro objekty. Z SVD matice X RC = U R D R V R pak plyne X X = U D a = D RC RC S0 R R UR UR S0 UR R Jde opět o rozklad kovarianční matice objektů na vlastní vektory U Rj jako sloupce matice U R a odpovídající vlastní čísla λ Rj = d Rj.

58 PCA a SVD IV SVD rozklad umožňuje jak analýzu v prostoru znaků (což je vlastně standardní přístup) označovanou jako R-mód, tak i analýzu v prostoru objektů (což je speciální případ) označovanou jako Q-mód. Dualita Q a R módu na příkladu jedné komponenty V (vlastní číslo λ) a jedné komponenty U (vlastní číslo λ R ) pro matici X S, která je centrovaná jak po sloupcích, tak i po řádcích. XS XS V = λ V a XS XS U = λr U XS XS ( XS V) = λr ( XS V) λ = λ R a XS V = ku, kde k souvisí s použitými normalizačními podmínkami. Standardní volba V V = 1 vede ke vztahu k U U = λ. Vzdálenosti mezi body v prostoru hlavních komponent R-módu a Q- módu jsou stejné, což se označuje jako dualita.

59 PCA a SVD V Dvojný graf umožňuje zobrazení všech dat v prostoru zvolené dimense. Standardně se používá zobrazení ve dvou dimenzích (projekce do prvních dvou hlavních komponent). Jednoduché je použít SVD rozklad D dvojný graf využívá pouze první dva diagonální elementy matice D (ostatní diagonální prvky jsou nahrazeny nulami). Označme tuto matici jako D*. D aproximace matice X má pak tvar: * * X = UD V Dále se počítají matice: XC = UDV G = U(D ) a H = (D )V * * Klasický dvojný graf je pak závislost řádků matice G na řádcích matice H. Matice G obsahuje skóry a matice H zátěže.

60 Interpretace PC I Původní matice X c = (x 1,..., x m ) - tvoří n bodů v m rozměrném prostoru znaků Matice skórů (t 1,..., t m ) - tvoří n bodů v m nebo k rozměrném prostoru PC. j-tý vektor t j PC i-tý vektor x Ci t j = m i=1 vij xci v ij jsou prvky matice V m, resp. V k pokud se užívá pouze k komponent. x m = v t Ci ij j j=1

61 Interpretace PC II x α cos α = cos α = x z ((x x)*(z z)) 1/ (x x) (p p) V prostru znaků je t j vážený součet vektorů x Ci s vahami v ij. Délka tohoto vektoru p=k*z z j j j j C C j j d( t ) = t t = v X X v = λ Projekce t Pji vektoru x Ci na t j je ve tvaru t Pji = t j b, kde b je směrnice. t tjx Ci tjx ( Ci j x - b t ) = 0 a b = = Ci j tt j j λ j

62 Interpretace PC III Protože je t j t k = 0 pro j # k (vektory t j jsou ortogonální) je j Ci m = = j v v k=1 t x t t ik k ij j edy b = v ij. a projekční vektor t Pji = v ij t j má délku p = = = ij t t v λ v λ Pji Pji ij j ij j λ Délka vektoru t j. m d( t j) = v p m ij ij i=1 i=1 = vij λ j

63 Interpretace PC IV Příspěvek každého původního znaku k délce vektoru t j je tedy úměrný čtverci v ij. Délka tohoto vektoru je úměrná směrodatné odchylce odpovídající hlavní komponenty (PC). Rozptyl objasněný j-tou PC je složen z příspěvků původních znaků a jejich významnosti vyjádřené pomocí v ij. Malé v ij znamená, že i-tý původní znak má malý vliv na variabilitu j-té PC a je pro ni nevýznamný. Pokud má řádek matice V všechny hodnoty malé je i-tý znak nevýznamný pro všechny PC.

64 Příspěvkový graf Graf složený z m skupin. V každé skupině je m sloupců. Každá skupina odpovídá jedné PC a každý sloupec ve skupině odpovídá jednomu znaku Výšky sloupců jsou úměrné Vij Výšky sloupců v pní skupině jsou standardizovány tak, aby jejich součet byl 100 %. (dělení součtem jejich délek Ls) Stejná standardizace je použita u ostatních skupin. Je možné posoudit vliv znaků na jednotlivé PC λ

65 Korelace Vazby mezi původními znaky a PC lze vyjádřit pomocí korelačních koeficientů mezi x Ci a t j, r ij x Ci t j V ij λ j = cos αij = = ( xci xci) tj tj σi σ i je směrodatná odchylka pro i-tý znak. Při použití normalizovaných znaků (matice S je nahrazena korelační maticí R) jsou korelační koeficienty přímo rovny dílčím projekcím r ij = p ij Vyšší r ij indikuje, že x Ci je blízké k t j, a přispívá významně k rozptylu objasněnému j-tou PC. p σ ij i

66 Rekonstrukce I Pokud se pro konstrukci matice použije pouze k < m hlavních komponent platí, že k k p ij Vij 1 resp. 1 j=1 j=1 λ j Projekce x Ci do k-rozměrného prostoru hlavních komponent leží v k- rozměrném elipsoidu s poloosami λi. Pokud platí znaménko rovnosti, leží x Ci celé uvnitř elipsoidu. Pokud to neplatí, je hraniční délka projekce do ortogonálního podprostoru dána jako λ k+ 1. Pro složky x * Ci neobsažené v k rozměrném podprostoru pak platí, že x m * Ci ij j = V j=k+1 t Rozklad x k = x + e = t + t ˆ V V Ci Ci i ij j ij j j=1 j=k+1 m

67 Rekonstrukce II Vektor reziduí pro i-tý znak je e i = x Ci *, takže d(x Ci *) odpovídá reziduálnímu součtu čtverců pro i-tý znak a celkový reziduální m m m součet čtverců je RSC = d ( ) = V λ k xci ij j i=1 i=1 j=k+1 Je patrné, že reziduum e ij pro j-tý znak a i-tý objekt je i-tým prvkem vektoru e j = (e j1,..., e ji,..., e jn ). Na základě odvození hlavních komponent pro vektor znaků (populační hlavní komponenty) lze RSC k vyjádřit také ve tvaru n n k ki Ci k k i=1 i=1 E V V x RSC = RSC = x ( - ) kde x Ci = (x i1,..., x im ) je sloupcový vektor, jehož prvky jsou složky i-tého řádku matice X C. Veličina RSC ki charakterizuje délku vektoru reziduí mezi i-tým objektem a jeho rekonstrukcí z k hlavních komponent. Ci

68 Indikace odchylek I Pro indikaci odlehlých objektů je pak možné konstruovat pro dané k indexový graf, a to vynesením RSC ki proti indexu objektů i. Reziduální součet čtverců RSC k je pochopitelně závislý na k. Pro k = m bude RSC k = 0. Optimální volba k je taková, kdy RSC k je dostatečně malé. Graficky to lze identifikovat vynesením RSC k proti k. Výsledkem je speciální graf úpatí pro RSC. K posouzení odchýlení jednotlivých objektů od modelu hlavních komponent postačuje RSC ki. Kromě toho se také často posuzuje odchýlení objektů od jejich centra, pro centrovaný případ X C od nulového bodu.

69 Indikace odchylek II Využití Mahalanobisovy vzdálenosti, tj. Hotellingovy statistiky i, = = x = -1-1 i yii yii Ci S xci xci Vk Λk Vk xci kde y Ii vznikne z hlavní komponenty y I náhradou vektoru x C i- tým řádkem matice X C, jež je převeden na sloupcový vektor. Body s vysokým RSC ki leží obvykle mino podprostor vymezený hlavními komponentami a body s vysokým i leži v podprostoru hlavních komponent, ale mimo konfidenční elipsoid Je zřejmé, že body odchýlené od modelu hlavních komponent nemusí být extrémně vzdálené od centra a body vzdálené extrémně od centra nemusí být ještě příliš odchýlené od modelu PCA. Rovnice elipsy v prostoru prvních dvou i1 i hlavních komponent má tvar + = 1 p λ1 p λ

70 Statistická analýza PC I Podmínky 1. Jako ve všech statistických metodách je lepší interpretovat data náhodného výběru ze správně definovaného souboru dle jisté experimentální strategie než data získaná čistě namátkovým způsobem.. Pocházejí-li objekty ze symetrického rozdělení nebo transformací převedené do symetrického rozdělení, výsledky jsou snadněji vysvětlitelné než jde-li o silně sešikmené rozdělení. 3. Vysloveně odlehlé objekty je třeba odhalit a odstranit. Jsou-li data z vícerozměrného normálního rozdělení, pak hlavní komponenty tvoří poloosy m rozměrného elipsoidu. Některé statistické testy vyžadují předem ověření normality.

71 Statistická analýza PC II V případě, že se PCA používá jako speciální regresní model nebo rekonstrukce matice X resp. pro hledání minimálního počtu hlavních komponent, je obyčejně potřebné zkoumat, jak vliv vlastností výběru na velikosti vlastních čísel a vlastních vektorů, tak stanovovat alespoň přesnost odhadů komponentních skórů, projekcí a zátěží. Vzhledem k tomu, že rozdělení vlastních čísel a vlastních vektorů je velmi složité, používá se v řadě případů buď zjednodušení nebo asymptotických výsledků. Centrálním předpokladem je vícerozměrná normalita znaků x = (x 1,..., x m ) ~ N(μ, C).

72 Statistická analýza PC III Rozdělení j-tého vlastního čísla λˆ j je asymptoticky normální se střední hodnotou λ j a rozptylem λ j /n. Pro asymptoticky 95%ní interval spolehlivosti populační hlavní komponenty λ j platí ˆ λ j ˆ λ j λ j /n /n Lze využít faktu, že limitní rozdělení veličiny je N(0, ). Pro konečné výběry jsou odhady λˆ j Přibližně platí, že m 1 E ( ˆ λ j )= λ j 1+ n i, j n ( ln ˆ λ j - vychýlené. λi λ j - λi ln λ j o znamená, že velká vlastní čísla jsou příliš velká, malá vlastní čísla jsou příliš malá. )

73 Statistická analýza PC IV Pro rozptyl D( λˆ j ) přibližně platí, že λ λ λ λ λ i j i m i_j j j - n n )= ( D ˆ Pro kovarianci platí λ λ λ λ λ λ ˆ - ˆ ˆ ˆ n = ) ˆ, ˆ cov ( j i j i j i Odhady vlastních čísel jsou tedy korelované a jejich rozptyl je podceněný. Pro korekci vychýlení lze použít vztah m * i j j i_j j i ˆ 1 ˆ ˆ = 1 - ˆ ˆ n - λ λ λ λ λ

74 Statistická analýza PC V Poměrně jednoduše lze určit hranice, kde se budou vyskytovat vlastní čísla z nerovností ˆ λ 1 ˆ λ m max (s j min (s ) j ) j =1,..., kde s j jsou rozptyly čili diagonální prvky kovarianční matice S. Lze také určit mez pro λˆ1 ve tvaru m λˆ max 1 j1 = s ij i = 1,..., m Zde s ij jsou kovarianční matice S a součet představuje součet jednotlivých řádků této matice. m

75 Statistická analýza PC VI estování hypotézy H 0 : λ k+1 + λ k λ m > γ proti alternativě H A : λ k+1 + λ k λ m < γ. Pokud jsou vlastní čísla matice C různá platí, že náhodná veličina m m m λ - má limitní normální rozdělení s n ˆ i λi nulovou střední hodnotou a rozptylem i=k+1 i=k+1 λi i=k+1 Pro hladinu významnosti α = 0.05 se pak zamítá hypotéza H 0, pokud platí m ˆ λ m i < i = k +1 ˆ λi 1.95γ i = k +1 n

76 Statistická analýza PC VII Pro testování hypotézy H 0 : λ k+1 = λ k+ =... = λ m, což je ekvivalentní testu hypotézy C = V V + σ E, tedy izotropie chybového členu, lze použít veličinu χ = m λi i=k+1 m-k k+1 i=1 λi (m - k ) m - k která má χ rozdělení s 0.5(m - k - 1)(m - k - ) stupni volnosti. n/

77 Statistická analýza PC VIII Při statistické analýze vlastních vektorů se využívá toho, že rozdíl ( Vˆ i -V i ) má asymptoticky normální rozdělení N(0, D), kde m i j kovarianční matice D má tvar λ λ D = Vj Vj n j_i ( λj - λi ) Pro směrodatnou odchylku j-tého prvku vlastního vektoru V j = (v j1,..., V ji,..., V jm ) platí s Vji = m ˆ λ j n l_j ˆ λl ( ˆ λl - ˆ λ j Pokud se uvažuje pouze prvních k vektorů, dochází k vychýlení těchto odhadů. ) V jl

78 Statistická analýza PC XI Při praktické aplikaci PCA se obyčejně vyčíslují komponentní skóry t j mající nulovou střední hodnotu E(t j ) = 0 a rozptyl D(t j ) = λ j. Za předpokladu normality je pak snadné určit intervaly spolehlivosti. Pro k-tý objekt čili k-tý řádek matice X C je komponentní skóre, odpovídající i-té hlavní komponentě ve tvaru m t i (k) = x j=1 kde V ji jsou vlastně prvky i-tého sloupce matice V. člen C j(k, i) = x kj V ji je pak příspěvkem k-tého objektu j-tého znaku ke skóre odpovídající i-té hlavní komponentě. Zjednodušeně lze vyjádřit rozptyl tohoto příspěvku jako kj V ji σˆ = D( x ) D( V ) σ V C kj ji x ji

79 PCA diagnostika I Pro vyjádření vlivu jednotlivých objektů na výsledky PCA je možné použít analogický přistup jako u regresní diagnostiky tj. vypuštění jednotlivých objektů. Nechť kovarianční matice C (i) s vypuštěným i- tým objektem čili i-tým řádkem matice X C má vlastní čísla λ 1(i) <= λ (i) <=... λ m(i). Přirozenou mírou vlivu vypuštění i-tého objektu na j- tou hlavní komponentu je rozdíl λ j -λ j(i) <=0 pro j = 1,..., m. Vliv vypuštění i-tého objektu na všechna vlastní čísla je pak vyjádřen m vztahy (i) = ( - ) n n - 1 Iλ λj λj(i) Iλ (i) = x Ci xci j=1 kde x Ci je vektor, odpovídající vypuštěnému objektu. Je proto patrné, že data, která leží daleko od centra μ mají velký vliv na odhady, získané PCA bez ohledu na jejich vzdálenost od hlavních komponent.

80 PCA diagnostika II Eukleidovská vzdálenost objektu od střední hodnoty μ d n - 1 ( x - μ) = ( xc ) = tr tr n C C Pro posouzení relativního vlivu i-tého objektu na j-tou hlavní komponentu je výhodné použít vztah I λ j (i)= λ j - λ I λ (i) j(i) j = 1,...,m Pokud je I λ j (i)= 0, znamená to, že odpovídající objekt nepřispívá ke změnám vlastních čísel a vlastních vektorů. (i)

81 PCA diagnostika III Vliv i-tého objektu na změnu j-tého vlastního vektoru V j se posuzuje na základě úhlu θ j(i) mezi V j a V j(i). cosθ j(i) = m t l=1 [ t [ λ j il - /( λ j kde t ij, j = 1,..., m(k) jsou komponentní skóry pro i-tý objekt, počítané z celé matice X C. yto statistiky umožňují posouzení vlivu jednotlivých objektů na výsledek PCA a tedy hodnocení kvality dat. ij λ - j(i) λ ] -1 j(i) ) ]

82 PCA pro korelovaná data I Simulovaná data z 3D normálního rozdělení s nulovým vektorem středních hodnot a korelační maticí 1 r r 1 13 r 1 r 1 3 r r 1 Bylo generováno N =500 dat pro různé varianty párových korelačních koeficientů. 13 3

83 PCA pro korelovaná data II Všechny korelace jsou nulové

84 PCA pro korelovaná data III Všechny korelace jsou 0.9

85 Falešné korelace I 1 r = H H 1 13 H r = r = H Vícenásobný korelační koeficient Parciální korelační koeficienty 0 1,3() = Proměnná x 3 je tedy parazitní a nepřispívá k objasnění variability proměnné x 1 Pro simulaci bylo voleno H = 0,9. 3 R R = 1(,3) H H 1,(3) R = 1+ H

86 Falešné korelace II Graf úpatí a příspěvkový graf

87 r Nízké párové korelace I = H H = 0 Vícenásobný korelační koeficient Parciální korelační koeficienty Všechny proměnné jsou tedy významné. r 3 r = 1 H R 1 = (,3) R = 0.71 R ,3() 1 =,(3) 0.707

88 Nízké párové korelace II Graf úpatí a příspěvkový graf PCA nemůže plně nahradit korelační analýzu

89 Vliv centrování a normalizace na PCA

90 Omezení PCA Data musí být ve stejném měřítku. PCA je lineární metoda, která selhává u nelineárních struktur -D data mají 3 shluky, které nelze nijak vhodně lineárně promítnout 3-D data mají 3 shluky (každý leží v jiném podprostoru). Nedojde ani ke snížení dimense ani zviditelnění

91 Zatím vše!!!

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

Náhodné vektory a matice

Náhodné vektory a matice Náhodné vektory a matice Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Symbolika A B Jev jistý S (nastane

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ

Více

Kapitola 11: Vektory a matice:

Kapitola 11: Vektory a matice: Kapitola 11: Vektory a matice: Prostor R n R n = {(x 1,, x n ) x i R, i = 1,, n}, n N x = (x 1,, x n ) R n se nazývá vektor x i je i-tá souřadnice vektoru x rovnost vektorů: x = y i = 1,, n : x i = y i

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

AVDAT Mnohorozměrné metody metody redukce dimenze

AVDAT Mnohorozměrné metody metody redukce dimenze AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

AVDAT Geometrie metody nejmenších čtverců

AVDAT Geometrie metody nejmenších čtverců AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

Kapitola 11: Vektory a matice 1/19

Kapitola 11: Vektory a matice 1/19 Kapitola 11: Vektory a matice 1/19 2/19 Prostor R n R n = {(x 1,..., x n ) x i R, i = 1,..., n}, n N x = (x 1,..., x n ) R n se nazývá vektor x i je i-tá souřadnice vektoru x rovnost vektorů: x = y i =

Více

DEFINICE Z LINEÁRNÍ ALGEBRY

DEFINICE Z LINEÁRNÍ ALGEBRY DEFINICE Z LINEÁRNÍ ALGEBRY Skripta Matematické metody pro statistiku a operační výzkum (Nešetřilová, H., Šařecová, P., 2009). 1. definice Vektorovým prostorem rozumíme neprázdnou množinu prvků V, na které

Více

Faktorová analýza (FACT)

Faktorová analýza (FACT) Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s Kapitola 13 Kvadratické formy Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru f(x 1,..., x n ) = a ij x i x j, kde koeficienty a ij T. j=i Kvadratická forma v n proměnných

Více

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2, Úlohy k přednášce NMAG a : Lineární algebra a geometrie a Verze ze dne. května Toto je seznam přímočarých příkladů k přednášce. Úlohy z tohoto seznamu je nezbytně nutné umět řešit. Podobné typy úloh se

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

11 Analýza hlavních komponet

11 Analýza hlavních komponet 11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u

Více

Základy maticového počtu Matice, determinant, definitnost

Základy maticového počtu Matice, determinant, definitnost Základy maticového počtu Matice, determinant, definitnost Petr Liška Masarykova univerzita 18.9.2014 Matice a vektory Matice Matice typu m n je pravoúhlé (nebo obdélníkové) schéma, které má m řádků a n

Více

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT 8. licenční studium Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT Příklady: ) Najděte vlastní (charakteristická) čísla a vlastní

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě

Více

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Kanonická korelační analýza

Kanonická korelační analýza Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle

Více

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory Zkouška ověřuje znalost základních pojmů, porozumění teorii a schopnost aplikovat teorii při

Více

Semestrální práce. 2. semestr

Semestrální práce. 2. semestr Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

AVDAT Vektory a matice

AVDAT Vektory a matice AVDAT Vektory a matice Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Vektory x = x 1 x 2. x p y = y 1 y 2. y p Řádkový vektor dostaneme transpozicí sloupcového vektoru x

Více

Vektory a matice. Jiří Militký. Katedra textilních materiálů Technická Universita Liberec,

Vektory a matice. Jiří Militký. Katedra textilních materiálů Technická Universita Liberec, Vektor a matice Jiří Militký Katedra tetilních materiálů echnická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Matice A 1 2 3 5 4 1 6 7 4 1 4 C 2 7 3 8 Matice

Více

1 Projekce a projektory

1 Projekce a projektory Cvičení 3 - zadání a řešení úloh Základy numerické matematiky - NMNM20 Verze z 5. října 208 Projekce a projektory Opakování ortogonální projekce Definice (Ortogonální projekce). Uvažujme V vektorový prostor

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE

Více

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí: Řešené příklady z lineární algebry - část 1 Typové příklady s řešením Příklady jsou určeny především k zopakování látky před zkouškou, jsou proto řešeny se znalostmi učiva celého semestru. Tento fakt se

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

Základy matematiky pro FEK

Základy matematiky pro FEK Základy matematiky pro FEK 2. přednáška Blanka Šedivá KMA zimní semestr 2016/2017 Blanka Šedivá (KMA) Základy matematiky pro FEK zimní semestr 2016/2017 1 / 20 Co nás dneska čeká... Závislé a nezávislé

Více

http: //meloun.upce.cz,

http: //meloun.upce.cz, Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Semestrální práce Licenční studium Statistické zpracování dat při kontrole a řízení jakosti předmět 3.1. Matematické principy

Více

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz J. Neubauer, J. Michálek (Katedra ekonometrie UO) 1 / 27 úvod Na sledovaných objektech

Více

Vícerozměrná geometrická analýza dat

Vícerozměrná geometrická analýza dat Motto: Všechno není jinak Vícerozměrná geometrická analýza dat Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Obsah Jsou popsány základní problémy vznikající v důsledku použití

Více

Vlastní čísla a vlastní vektory

Vlastní čísla a vlastní vektory 5 Vlastní čísla a vlastní vektor Poznámka: Je-li A : V V lineární zobrazení z prostoru V do prostoru V někd se takové zobrazení nazývá lineárním operátorem, pak je přirozeným požadavkem najít takovou bázi

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity) 4 Lineární zobrazení Definice: Nechť V a W jsou vektorové prostory Zobrazení A : V W (zobrazení z V do W nazýváme lineárním zobrazením, pokud pro všechna x V, y V a α R platí 1 A(x y = A(x A(y (vlastnost

Více

1 Báze a dimenze vektorového prostoru 1

1 Báze a dimenze vektorového prostoru 1 1 Báze a dimenze vektorového prostoru 1 Báze a dimenze vektorového prostoru 1 2 Aritmetické vektorové prostory 7 3 Eukleidovské vektorové prostory 9 Levá vnější operace Definice 5.1 Necht A B. Levou vnější

Více

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n [1] Základní pojmy [2] Matice mezi sebou sčítáme a násobíme konstantou (lineární prostor) měníme je na jiné matice eliminační metodou násobíme je mezi sebou... Matice je tabulka čísel s konečným počtem

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.1 Matematické principy vícerozměrných metod statistické analýzy

Více

Arnoldiho a Lanczosova metoda

Arnoldiho a Lanczosova metoda Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat

Více

Matematika B101MA1, B101MA2

Matematika B101MA1, B101MA2 Matematika B101MA1, B101MA2 Zařazení předmětu: povinný předmět 1.ročníku bc studia 2 semestry Rozsah předmětu: prezenční studium 2 + 2 kombinované studium 16 + 0 / semestr Zakončení předmětu: ZS zápočet

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní ..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X

Více

Shodnostní Helmertova transformace

Shodnostní Helmertova transformace Shodnostní Helmertova transformace Toto pojednání ukazuje, jak lze určit transformační koeficienty Helmertovy transformace za požadavku, aby představovaly shodnostní transformaci. Pro jednoduchost budeme

Více

(n, m) (n, p) (p, m) (n, m)

(n, m) (n, p) (p, m) (n, m) 48 Vícerozměrná kalibrace Podobně jako jednorozměrná kalibrace i vícerozměrná kalibrace se používá především v analytické chemii Bude vysvětlena na příkladu spektroskopie: cílem je popis závislosti mezi

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

1 Vektorové prostory.

1 Vektorové prostory. 1 Vektorové prostory DefiniceMnožinu V, jejíž prvky budeme označovat a, b, c, z, budeme nazývat vektorovým prostorem právě tehdy, když budou splněny následující podmínky: 1 Je dáno zobrazení V V V, které

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci. Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci

Více

Úlohy nejmenších čtverců

Úlohy nejmenších čtverců Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz IV. LINEÁRNÍ KLASIFIKACE PRINCIPY KLASIFIKACE pomocí diskriminačních funkcí funkcí,

Více

Vlastní číslo, vektor

Vlastní číslo, vektor [1] Vlastní číslo, vektor motivace: směr přímky, kterou lin. transformace nezmění invariantní podprostory charakteristický polynom báze, vzhledem ke které je matice transformace nejjednodušší podobnost

Více

Zobecněná analýza rozptylu, více faktorů a proměnných

Zobecněná analýza rozptylu, více faktorů a proměnných Zobecněná analýza rozptylu, více faktorů a proměnných Menu: QCExpert Anova Více faktorů Zobecněná analýza rozptylu (ANalysis Of VAriance, ANOVA) umožňuje posoudit do jaké míry ovlivňují kvalitativní proměnné

Více

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Úvod do vícerozměrných metod Statistické metody a zpracování dat Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný O řadě jevů či procesů máme k dispozici ne jeden statistický

Více

Operace s maticemi. 19. února 2018

Operace s maticemi. 19. února 2018 Operace s maticemi Přednáška druhá 19. února 2018 Obsah 1 Operace s maticemi 2 Hodnost matice (opakování) 3 Regulární matice 4 Inverzní matice 5 Determinant matice Matice Definice (Matice). Reálná matice

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Příloha č. 1 Grafy a protokoly výstupy z adstatu 1 Příklad 3. Stanovení Si metodou OES Byly porovnávány naměřené hodnoty Si na automatickém analyzátoru OES s atestovanými hodnotami. Na základě testování statistické významnosti regresních parametrů (úseku

Více

Definice spojité náhodné veličiny zjednodušená verze

Definice spojité náhodné veličiny zjednodušená verze Definice spojité náhodné veličiny zjednodušená verze Náhodná veličina X se nazývá spojitá, jestliže existuje nezáporná funkce f : R R taková, že pro každé a, b R { }, a < b, platí P(a < X < b) = b a f

Více

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Necht L je lineární prostor nad R. Operaci : L L R nazýváme Skalární součin axiomatická definice odvození velikosti vektorů a úhlu mezi vektory geometrická interpretace ortogonalita vlastnosti ortonormálních bázi [1] Definice skalárního součinu Necht L je lineární

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Semestrální práce. 2. semestr

Semestrální práce. 2. semestr Licenční studium č. 89002 Semestrální práce 2. semestr PŘEDMĚT 2.2 KALIBRACE A LIMITY JEJÍ PŘESNOSTI Příklad 1 Lineární kalibrace Příklad 2 Nelineární kalibrace Příklad 3 Rozlišení mezi lineární a nelineární

Více

Analýza hlavních komponent

Analýza hlavních komponent Analýza hlavních komponent Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz J. Neubauer, J. Michálek (Katedra ekonometrie UO) Analýza

Více

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová. [1] Terminologie [2] Soustavy lineárních rovnic vlastnosti množin řešení metody hledání řešení nejednoznačnost zápisu řešení Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová matice.

Více

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika) Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika) Kartézská soustava souřadnic je dána počátkem O a uspořádanou trojicí bodů E x,

Více

Klasifikace a rozpoznávání. Extrakce příznaků

Klasifikace a rozpoznávání. Extrakce příznaků Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně 7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností

Více

1 Determinanty a inverzní matice

1 Determinanty a inverzní matice Determinanty a inverzní matice Definice Necht A = (a ij ) je matice typu (n, n), n 2 Subdeterminantem A ij matice A příslušným pozici (i, j) nazýváme determinant matice, která vznikne z A vypuštěním i-tého

Více

SVD rozklad a pseudoinverse

SVD rozklad a pseudoinverse SVD rozklad a pseudoinverse Odpřednesenou látku naleznete v kapitole 12 skript Abstraktní a konkrétní lineární algebra. Jiří Velebil: Lineární algebra 19.12.2016: SVD rozklad a pseudoinverse 1/21 Cíle

Více