Robust 2014, 19. - 24. ledna 2014, Jetřichovice



Podobné dokumenty
Alternativní přístup k analýze vícefaktorových dat

kompoziční data s aplikací v metabolomice

Aplikace T -prostorů při modelování kompozičních časových řad

Předzpracování kompozičních dat

Imputace nulovy ch hodnot v metabolomice

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Klasická a robustní ortogonální regrese mezi složkami kompozice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

SVD rozklad a pseudoinverse

Numerické metody a programování

11 Analýza hlavních komponet

AVDAT Mnohorozměrné metody metody redukce dimenze

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro

Numerické metody a programování. Lekce 4

4EK213 Lineární modely. 4. Simplexová metoda - závěr

Matematika pro geometrickou morfometrii

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

11. Skalární součin a ortogonalita p. 1/16

Úlohy nejmenších čtverců

2. Schurova věta. Petr Tichý. 3. října 2012

Klasifikace a rozpoznávání. Extrakce příznaků

11.Metody molekulové spektrometrie pro kvantitativní analýzu léčiv

Lineární algebra : Skalární součin a ortogonalita

Vícerozměrné statistické metody

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

8 Coxův model proporcionálních rizik I

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Lineární algebra - I. část (vektory, matice a jejich využití)

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

1. července 2010

(n, m) (n, p) (p, m) (n, m)

4EK213 LINEÁRNÍ MODELY

Metody zvýrazňování obrazu III. Vícepásmová zvýraznění. Spektrální příznaky. Příznakový prostor. Podstata vícepásmových zvýraznění

aneb jiný úhel pohledu na prvák

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

1 Projekce a projektory

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Podobnostní transformace

Datové struktury. Zuzana Majdišová

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

BAKALÁŘSKÁ PRÁCE. Vývoj složení hrubého domácího produktu v České republice UNIVERZITA PALACKÉHO V OLOMOUCI

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Matematika B101MA1, B101MA2

15 Maticový a vektorový počet II

a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

Afinní transformace Stručnější verze

Modelování a simulace Lukáš Otte

Státní závěrečná zkouška z oboru Matematika a její použití v přírodních vědách

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Univerzita Pardubice 8. licenční studium chemometrie

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Vlastní čísla a vlastní vektory

Požadavky ke zkoušce

Základy matematiky pro FEK

ALGEBRA. Téma 4: Grupy, okruhy a pole

Hammingovy kódy. dekódování H.kódů. konstrukce. šifrování. Fanova rovina charakteristický vektor. princip generující a prověrková matice

Podobnost matic. Definice 8.6. Dány matice A, B M n (C). Jestliže existuje regulární matice P M n (C) tak,

Linearní algebra příklady

Analýza hlavních komponent

EUKLIDOVSKÉ PROSTORY

Bayesovský p ístup k t-test m v kompozi ní analýze metabolomických dat

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Lineární algebra : Skalární součin a ortogonalita

Symetrické a kvadratické formy

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

POŽADAVKY K SOUBORNÉ ZKOUŠCE Z MATEMATIKY

Bayesovská klasifikace digitálních obrazů

Arnoldiho a Lanczosova metoda

4EK213 Lineární modely. 5. Dualita v úlohách LP

1 Báze a dimenze vektorového prostoru 1

MODELU A KOMPOZIČNÍHO MODELU PŘI ANALÝZE DAT

MENDELOVA UNIVERZITA V BRNĚ LDF MT MATEMATIKA VEKTORY, MATICE

MENDELOVA UNIVERZITA V BRNĚ LDF MT MATEMATIKA VEKTORY, MATICE

Soustavy linea rnı ch rovnic

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

transformace je posunutí plus lineární transformace má svou matici vzhledem k homogenním souřadnicím [1]

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

Kapitola 11: Vektory a matice:

Matematika I 12a Euklidovská geometrie

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

AB = 3 CB B A = 3 (B C) C = 1 (4B A) C = 4; k ]

Soustavy lineárních rovnic

Algoritmus pro hledání vlastních čísel kvaternionových matic

a + b + c = 2 b + c = 1 a b = a 1 2a 1 + a a 3 + a 5 + 2a 2 + a 2 + a

Základní pojmy teorie množin Vektorové prostory

0.1 Úvod do lineární algebry

Fakulta chemicko technologická Katedra analytické chemie

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

Řešíme tedy soustavu dvou rovnic o dvou neznámých. 2a + b = 3, 6a + b = 27,

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Využití RPS pro potlačování šumu v řečových signálech

Zpracování a vyhodnocování analytických dat

Transkript:

K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University of Technology, Austria Robust 2014, 19. - 24. ledna 2014, Jetřichovice

Obsah Kompoziční data 1 Kompoziční data 2 3 4 5 6 K. Hron

Definice Kompoziční data Data popisující koncentrace složek jsou kompoziční data: D-složková kompozice x = (x 1,..., x D ) t je prvkem simplexu jako výběrového prostoru (reprezentací) kompozičních dat, S D = {(x 1,..., x D ) t x i > 0, D x i = κ}, i=1 kde κ je vhodně zvolená konstanta, např. 1 nebo 100. Definice: Kompoziční data jsou reálné vektory x = (x 1,..., x D ) t s D kladnými složkami popisujícími kvantitativně relativní příspěvky částí na celku (Aitchison, 1986). Kompoziční data se řídí Aitchisonovou geometríı na simplexu (a nikoli standardní euklidovskou geometríı). K. Hron

Logratio souřadnice (transformace) ze simplexu do euklidovského reálného prostoru: alr (aditivní logratio) souřadnice: nejsou ortonormální, děĺıme j-tou složkou j {1,..., D}: ( ln x 1 x (j) =,..., ln x j 1, ln x j+1,..., ln x D x j x j x j x j clr (centrované logratio) souřadnice: singulární varianční matice, izometrie s Aitchisonovou geom.: y = ln x 1 D D i=1 x i,..., ln x D D D i=1 x i t ) t, y t 1 = 0 ilr (izometrické logratio) souřadnice: volbou ortonormální báze v clr-prostoru = komplexní interpretace (absence kanonické báze na simplexu) K. Hron

Cíle Kompoziční data Objekty: vysoce-dimenzionální kompoziční data Oblasti: chemometrie, proteomika, genomika, metabolomika Cíl: redukce dimenze maximalizace vysvětlené variability zjednodušení interpretace nových souřadnic (směrů) K. Hron

Problémy Kompoziční data Současné metody často selhávají při řešení následujících problémů: nové směry jsou obtížně interpretovatelné velká ztráta informace (vysvětlené variability) metody nejsou použitelné pro vysoce-dimenzionální kompoziční data K. Hron

NMR metabolomická spektra NMR metabolomická spektra vzorků moči od 18 myší každé spektrum má 189 spektrálních píků data jsou měřena v ppm (CoDa) detailní popis dat v Nyamundanda a kol. (2010) K. Hron

NMR metabolomická spectra Intensity 0 20 40 60 80 100 0 50 100 150 Number of spectral bin Obrázek: Původní data (vzorky moči) se 189 spektrálními píky. K. Hron

Methods Kompoziční data Metoda hlavních komponent (PCA) redukce dat při maximalizaci vysvětlené variability nové směry jsou lineární kombinace všech proměnných: obtížná interpretovatelnost Bilance charakterizují rovnováhu mezi disjunktními skupinami kompozičních složek představují souřadnice vzhledem k ortonormální bázi na simplexu bez ohledu na maximalizaci vysvětlené variability bilance jsou konstruovány užitím postupného binárního dělení K. Hron

Bilance Kompoziční data Užití postupného binárního dělení pro vytvoření disjunktních skupin kompozičních složek (Egozcue a Pawlowsky-Glahn, 2005). Například pro D = 5 x 1 x 2 x 3 x 4 x 5 1 +1 +1 1 1 1 2 +1 1 0 0 0 3 0 0 +1 1 1 4 0 0 0 +1 1 Řádek 1: G 1 = {x 1, x 2 } a G 2 = {x 3, x 4, x 5 } Řádek 2: rozdělit G 1 na {x 1 } a {x 2 } atd. Znaménka v D 1 řádcích jsou použita ke kontrukci ilr báze V. K. Hron

Obecně, ortonormální báze na simplexu může být definována vektory (sloupce D (D 1) matice V ) v i = a +,..., a } {{ +, a },..., a, 0,..., 0 } {{ } } {{ } r složek s složek D r s složek pro i = 1,..., D 1, kde s a + = r(r + s) and a = r s(r + s) t r je počet kladných a s počet záporných prvků v tabulce postupného binárního dělení (Egozcue a Pawlowsky-Glahn, 2005). K. Hron

Hlavní bilance (PB) představují co nejlepší aproximaci hlavních komponent pokus splnit oba požadavky: maximalizace vysvětlené variability a jednoduchá interpretovatelnost obtížně použitelné pro vysoce-dimenzionální kompoziční data Algoritmy pro konstrukci hlavních bilancí: úhlové přibĺıžení k hlavním komponentám (AV) hierarchické shlukování složek (HC) hierarchické bilance s maximální vysvětlenou variabilitou (MV) podrobný popis viz Pawlowsky-Glahn a kol. (2011) K. Hron

(SPB) řídké hlavní bilance představující kompromis mezi maximalizací vysvětlené variability a počtem zahrnutých kompozičních složek obsahují informaci pouze o několika málo kompozičních složkách s nulovým příspěvkem (většiny) ostatních složek obdoba cílů řídké PCA užijeme algoritmus z Witten a kol. (2012) založený na řídkém singulárním rozkladu (SVD) K. Hron

Algoritmus pro konstrukci řídkých hlavních bilancí (SPB) aplikujeme řídkou PCA na clr-transformovanou datovou matici zvoĺıme k-komponent matice zátěží V má rozměry D k s mnoha nulami V = [v ij ] vyžaduje další modifikaci dosažení nepřekrývajícího se efektu nenulových prvků matice - garance ortogonality hlavních směrů - zjednodušení intepretace K. Hron

Algoritmus pro konstrukci řídkých hlavních bilancí (SPB) najdeme nejmenší j pro které v ij 0, a položíme všechny prvky v il, l > j rovny nule (v případě, že jsou nenulové) vl : d D nenulových prvků v každém sloupci modifikované matice V projektujeme vl na nadrovinou clr transformovaných dat užijeme modifikovanou matici ke konstrukci bilancí K. Hron

Algoritmus pro konstrukci řídkých hlavních bilancí (SPB) 1 2 3 4 5 1-0.62-0.11 0.00 0.25 0.12 2 0.00 0.42 0.72 0.00-0.06 3 0.00 0.00 0.00-0.36-0.01 4 0.00 0.00 0.00 0.85 0.05 5-0.26 0.00 0.00 0.00 0.18 6 0.00 0.81 0.00-0.09-0.03 7 0.00 0.00-0.48 0.00-0.73 8 0.22 0.00-0.45 0.06 0.62 9 0.68-0.13 0.00 0.20-0.18 10 0.00 0.00 0.14 0.20 0.04 1 2 3 4 5 1-0.62 0.00 0.00 0.00 0.00 2 0.00-0.19 0.00 0.00 0.00 3 0.00 0.00 0.00-0.60 0.00 4 0.00 0.00 0.00 0.60 0.00 5-0.26 0.00 0.00 0.00 0.00 6 0.00 0.19 0.00 0.00 0.00 7 0.00 0.00-0.31 0.00 0.00 8 0.21 0.00 0.00 0.00 0.00 9 0.68 0.00 0.00 0.00 0.00 10 0.00 0.00 0.31 0.00 0.00 1 2 3 4 5 1-0.62 0.00 0.00 0.00 0.00 2 0.00 0.42 0.00 0.00 0.00 3 0.00 0.00 0.00-0.36 0.00 4 0.00 0.00 0.00 0.85 0.00 5-0.26 0.00 0.00 0.00 0.00 6 0.00 0.81 0.00 0.00 0.00 7 0.00 0.00-0.48 0.00 0.00 8 0.22 0.00 0.00 0.00 0.00 9 0.68 0.00 0.00 0.00 0.00 10 0.00 0.00 0.14 0.00 0.00 K. Hron

Porovnání časové náročnosti Time in seconds 0 20 40 60 80 100 AV HC MV SPB Time in seconds 0 5 10 15 20 HC SPB 10 20 30 40 50 0 500 1000 1500 2000 Number of parts Number of parts Obrázek: Porovnání doby potřebné k výpočtu první bilance pomocí algoritmů AV (úhlové přibĺıžení k hlavním komponentám), HC (hierarchické shlukování složek), MV (hierarchické bilance s maximální vysvětlenou variabilitou) a SPB (řídké hlavní bilance). K. Hron

Výsledky simulací Cumulative variance SPB/HC 0.5 1.0 1.5 2.0 D=10 D=50 D=100 D=500 D=1000 D=2000 Obrázek: Kumulativní vysvětlená variabilita pro k = 2 komponent. Zobrazený je podíl mezi SPB a HC. K. Hron

Výsledky pro reálný příklad Tabulka: Kumulativní vysvětlená variabilita pro CoDa-PCA, hierarchické shlukování složek (HC) a řídké hlavní bilance (SPB) pro datových soubor močových vzorků. Kumulativní vysvětlená variabilita [%] metoda jedna komponenta dvě komponenty CoDa-PCA 28.1 38.5 HC 8.9 16.7 SPB 13.9 15.6 K. Hron

Výsledky pro reálný příklad HC first balance Intensity 0 20 40 60 80 0 50 100 150 Number of spectral bin HC second balance Intensity 0 20 40 60 80 0 50 100 150 Number of spectral bin Obrázek: První dvě bilance z HC aplikované na reálná data (vzorky močí). Zobrazena jsou původní data (černá), a dále pozice kladných (zelené vertikály) a záporných (modré vertikály) znamének bilancí. K. Hron

Výsledky pro reálný příklad SPB first balance Intensity 0 20 40 60 80 0 50 100 150 Number of spectral bin SPB second balance Intensity 0 20 40 60 80 0 50 100 150 Number of spectral bin Obrázek: První dvě řídké hlavní bilance aplikované na reálná data (vzorky močí). Zobrazena jsou původní data (černá), a dále pozice kladných (zelené vertikály) a záporných (modré vertikály) znamének bilancí. K. Hron

Závěr Kompoziční data jsou aplikovatelné pro vysocedimenzionální kompoziční data s možností rychlého výpočtu Umožňují dosáhnout vysoké úrovně vysvětlené variability (více než hlavní bilance) Výsledky jsou jednoduše interpretovatelné K. Hron

Literatura Kompoziční data Aitchison, J., 1986. The Statistical Analysis of Compositional Data. Chapman & Hall, London. Egozcue, J., Pawlowsky-Glahn, V., 2005. Groups of parts and their balances in compositional data analysis. Mathematical Geology 37, 795 820. Mert, C., Filzmoser, P., Hron, K., 2014. Sparse principal balances. Statistical Modelling, přijato k tisku. Nyamundanda, G., Brennan, L., Gormley, I., 2010. Probabilistic principal component analysis for metabolomic data. BMC Bioinformatics 11, 1 11. Pawlowsky-Glahn, V., Egozcue, J., Tolosana-Delgado, R., 2011. Principal balances, in: Egozcue, J., Tolosana-Delgado, R., Ortego, M. (Eds.), Proceedings of the 4th International Workshop on Compositional Data Analysis, Girona, Spain. pp. 1 10. Witten, D., Tibshirani, R., Hastie, T., 2009. A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis. Biostatistics 10, 515 534. K. Hron