Metoda dílčích nejmenších čtverců pro kompoziční data s aplikací v metabolomice Karel Hron a,b, Peter Filzmoser c, Lukáš Najdekr d a Katedra matematické analýzy a aplikací matematiky b Katedra geoinformatiky PŘF UPOL c Department of Statistics and Probability Theory Vienna University of Technology d Laboratoř metabolomiky Ústav molekulární a translační medicíny, UPOL a FNOL Robust 2014, 19. - 24.1. 2014
Obsah 1 Úvod 2 Metabolomika 3 Kompoziční data 4 PLS-DA 5 Praktický příklad 6 Závěr
Úvod Metabolomická data mají speciální strukturu. Na metabolomická data aplikujeme přístup tzv. kompozičních dat. Speciální struktura dat užití metody dílčích nejmenších čtverců - diskriminační analýzy (PLS-DA). Teoretické aspekty jsou dále ukázány na konkrétních datových souborech. Porovnání standardního a kompozičního přístupu.
Metabolomika (Wu et al., 2011)
Metabolomika Metabolom - soubor organických sloučenin, které jsou obsaženy v daném biologickém materiálu. Jejich velikost je na úrovni molekul. Metabolity - molekuly tvořící metabolom. Metabolomika - analýza metabolomu za daných podmínek. Metabolity jsou měřeny na biologických materiálech (buňky, krev, moč,...) a nesou pouze relativní informaci.
Metabolomický datový soubor Pozorování - pacienti vs. kontroly. Proměnné - jednotlivé metabolity. Velký datový soubor. Více proměnných než pozorování. Malý počet pacientů (nejvíce desítky, spíše méně). Velký počet metabolitů (stovky) užití vhodných metod.
Kompoziční data Vícerozměrný statistický soubor, jehož prvky jsou kvantitativně vyjádřené části celku. Definice Sloupcový vektor x = (x 1,..., x D ) T se nazývá D-složková kompozice, jestliže jsou všechny jeho prvky kladná reálná čísla nesoucí pouze relativní informaci. Možnost reprezentovat kompozice jako data s konstantním součtem (k). Např. procenta (k = 100) nebo podíly na celku velikosti k (nejčastěji k = 1). Příklad: koncentrace chemických sloučenin v horninách.
Centrované logratio (clr) souřadnice Geometrie pro práci s kompozičními daty - tzv. Aitchisonova geometrie. Převod na známou euklidovskou geometrii přes tzv. logratio souřadnice. Clr souřadnice (centred logratio coordinations) - zachovává vzdálenosti mezi daty, vede k singulární varianční matici. Clr souřadnice vyjádřené po složkách: clr(x) = y = ( ln x 1 g(x), ln x 2 g(x),..., ln x ) T D, g(x) kde g(x) = D D i=1 x i je geometrický průměr složek kompozice x.
Isometrické logratio (ilr) souřadnice Principem je vytvořit ortonormální bázi pro kompozici x = (x 1,..., x D ) na simplexu (výběrovém prostoru). Ilr souřadnice (D 1)-dimenzionální reálný vektor ilr(x) = z = (z 1,..., z D 1 ), jehož složky jsou definovány jako D i z i = D i + 1 ln x i D i D j=i+1 x j, i = 1,..., D 1. (1) Proměnná z 1 nese všechnu relevantní informaci o části kompozice x 1, vysvětluje všechny podíly mezi x 1 a ostatními částmi x.
Isometrická logratio (ilr) souřadnice Chceme vytvořit ortonormální bázi, ve které první ilr souřadnice vysvětluje veškerou důležitou informaci o zvolené složce. Konstruujeme D různých ilr souřadnic, kde je D-tice (x 1,..., x D ) v (1) nahrazena pro l = 1,..., D pomocí (x l, x 1,..., x l 1, x l+1,..., x D ) =: (x (l) 1, x(l) 2,..., x(l) l, x (l) l+1,..., x(l) D ) [3]. z (l) D i i = D i + 1 ln x (l) i D i D j=i+1 x(l) j, i = 1,..., D 1. (2)
Vztah mezi clr a ilr souřadnicemi y = Vz. (3) Matice V = (v 1,..., v D 1 ) má dimenzi D (D 1) a její sloupce jsou tvořeny clr souřadnicovými vektory, které tvoří ortonormální bázi (vzhledem k Aitchisonově geometrii). Pro i = 1,..., D 1 ( ) D i v D i = 0,..., 0, 1, 1 D i + 1 D i,..., 1. (4) D i
PLS-DA Metoda dílčích nejmenších čtverců - lineární diskriminace (partial least squares regression - discriminant analysis). Třída metod, která slouží k modelování vztahů mezi pozorováními (vysvětlujícími proměnnými) a skupinou tzv. latentních proměnných. Kombinace metody hlavních komponent a mnohonásobné regrese. Cíl - predikovat množinu závislých proměnných na základě informace ze skupiny latentních proměnných (prediktorů). Predikce je prováděna extrakcí ortogonálních faktorů z prediktorů. Cíl - maximalizovat kovarianci mezi skupinami závislých a latentních proměnných.
PLS-DA Závislé a latentní proměnné - blokové matice, centrovány vzhledem k Aitchisonově geometrii. Regrese je prováděna na latentních proměnných. PLS1 - pouze jedna závisle proměnná, PLS2 - více závislých proměnných (užívá se častěji). Datové matice X n D a Y n q. Matice X je transformována na Z pomocí ilr souřadnic (2). Výsledkem je lineární vztah Y = ZΓ + E, (5) kde Γ je (D 1) q dimenzionální matice regresních koeficientů a E je matice chyb. Y je tvořena binárními proměnnými reprezentujícími příslušnost ke skupinám.
PLS-DA Místo řešení rovnice (5) jsou matice Z a Y vyjádřeny pomocí latentních proměnných: Z = TP T + E X, Y = UQ T + E Y. E X, E Y - matice reziduí T, U - matice skórů P, Q - matice zátěží Všechny matice mají a sloupců, a min(d, q, n) je počet PLS komponent.
PLS-DA Kovariance mezi x a y je maximalizována. Kovariance mezi t a u: cov(t, u) = t T u/(n 1), za podmínky t = u = 1. Vektory vah w a c: t = Zw, u = Yc. Maximalizace: cov(t, u) = cov(zw, Yc) Řešení: první dva vektory skórů t 1 and u 1. max. t = u =1
PLS-DA - další postup Vyšetřování statistické významnosti jednotlivých regresních parametrů pomocí metody bootstrap. V každém kroku je proveden náhodný výběr s opakováním prvků z jednotlivých skupin. Velikost výběru = počet prvků ve skupinách. Na tomto výběru je následně proveden odhad regresních parametrů. Postup je opakován, následně jsou zjištěny směrodatné odchylky výsledných odhadů parametrů.
Praktický příklad I. Standardized regression estimates standard approach Standardized regression estimates logratio approach Phe Phe regression estimates/sd 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Met Gly His Orn Pro Arg Gln Ser Thr Trp Tyr Val xl regression estimates/sd 0 1 2 3 4 5 6 Gln Met Gly Arg His Orn Pro Thr Trp Val Ser Tyr xl 2 4 6 8 10 12 14 numbers of variables 2 4 6 8 10 12 14 numbers of variables
Praktický příklad I. MSEP standard approach MSEP logratio approach MSEP 0.2 0.3 0.4 0.5 MSEP 0.05 0.10 0.15 0.20 0.25 0.30 0 2 4 6 8 number of components 0 2 4 6 8 number of components
Praktický příklad I. Standardized regression estimates standard approach Standardized regression estimates logratio approach regression estimates/sd 2 1 0 1 2 Phe Met Gln Pro Orn His Thr Gly Trp Tyr Arg Ser Val xl regression estimates/sd 1 0 1 2 3 4 5 6 Phe Pro Met Orn Thr Gln Trp Tyr Gly His Arg Ser Val xl 2 4 6 8 10 12 14 numbers of variables 2 4 6 8 10 12 14 numbers of variables
U vod Metabolomika Kompozic nı data PLS-DA Prakticky pr ı klad Za ve r Prakticky pr ı klad II. Standardized regression estimates standard approach 100 200 300 10 numbers of variables Alz be ta Kalivodova a,b 400 500 15 0 5 X109.101222 X81.069693 X349.201165 X666.435444 X639.408911 X95.085441 X791.563427 X115.054299 X314.23269 X638.40369 X317.211172 X333.206163 X510.355549 X128.062202 X652.419403 X772.54883 X159.116392 X123.11696 X480.310053 X219.1745 X351.216669 X316.248368 X173.132484 X119.085604 X121.101299 X478.297546 X468.308637 X118.086603 X255.228872 X401.341633 X86.096445 X558.295775 X520.339918 X610.376964 X776.58048 X205.097921 X316.321123 X773.654376 X103.054422 X166.086747 X524.371397 X596.361447 X132.102356 X206.102759 X116.070957 X275.20069 X315.23605X466.330615 X120.081162 X650.439418 X188.07247 X288.289951 X562.326965 X785.653163 X126.103811 X703.540262 X80.049305 X523.358925 X72.080966 X591.386615 X244.263738 X786.601027 X831.557661 X746.562448 X397.105015 X404.206854 X461.228386 X766.574457 X132.065968 X492.363571 X286.20147 X118.065178 X480.201491 X400.378623 X342.141868 X527.247203 X454.294739 X438.299615 X267.086583 X522.355545 X485.136656 X514.376478 X560.311612 X745.621619 X702.535787 X576.571606 X728.586292 X284.125941 X333.299934 X801.583142 X156.0784 X700.455626 X136.112184 X764.608394 X774.659069 X831.695882 X253.107336 X459.308311 X341.138572 X482.404682 X476.306606 X86.059777 X251.091772 X270.279317 X375.174785 X570.457747 X614.483627 X677.558912 X220.206193 X481.400111 X470.35028 X200.023661 X648.629639 X262.253158 X264.268828 X838.633369 X430.379966 X895.715862 X752.560571 X321.205945 X520.50906 X119.090443 X307.226875 X792.589717 X408.36845 X256.26373 X103.086494 X794.571613 X839.700349 X810.536395 X902.816498 X809.65452 X267.122941 X767.546684 X426.358085 X335.293972 X676.660423 X850.668263 X291.232063 X820.525357 X695.3918 X380.337131 X748.531436 X792.555796 X628.603613 X810.601025 X203.139774 X783.572901 X810.601398 X848.770259 X869.700661 X848.556687 X719.606856 X768.556386 X411.250927 X540.535535 X660.66543 X372.31096 X834.600443 X844.525541 X732.555461 X634.640648 X347.315539 X778.576543 X385.275581 X658.649947 X364.264537 X684.569539 X838.566554 X247.144432 X820.524612 X207.159283 X308.297935 X106.050921 X837.684661 X766.541634 X764.524571 X245.115117 X319.284321 X341.268999 X782.570131 X400.342299 X104.071561 X527.301695 X806.569106 X232.15676 X825.656106 X204.123757 X219.144203 X765.529504 X368.279541 X416.232404 X163.075385 X535.25899 X836.550697 X398.326677 X812.547927 X531.333509 X218.139238 X392.279578 X462.352253 X505.248575 X599.509204 X840.583394 X141.113597 X370.295386 X740.525536 X306.242721 X533.279812 X477.217569 X623.509143 X326.268714 X520.395082 X788.523922 X378.263872 X790.541951 5 regression estimates/sd 10 X367.336025 X288.217194 X260.185852 10 10 0 X133.081028 X742.537589 X782.569897 X652.661449 X540.535535 X627.538767 X722.597286 X835.604268 X118.086642 X704.388565 X838.633369 X812.6734 X408.36845 X718.541592 X852.792581 X363.310612 X372.31096 X279.159164 X246.079507 X181.029252 X719.606856 X728.565669 X527.301695 X794.6053 X380.337131 X811.604277 X820.525357 X653.663837 X810.601398 X850.668263 X175.089976 X206.350967 X812.547927 X306.242721 X784.585427 X806.569159 X811.669091 X628.603613 X807.572347 X701.559923 X119.090443 X897.732497 X378.263872 X834.601536 X729.590637 X204.123757 X848.770259 X520.395082 X308.297935 X462.352253 X734.569989 X739.515226 X430.379966 X484.286692 X839.700349 X810.536395 X411.250927 X733.621747 X370.295386 X902.816498 X716.528582 X511.374508 X361.277236 X724.531556 X326.268714 X718.575824 X743.543249 X836.550697 X836.615061 X838.566554 X319.284321 X706.595094 X695.3918 X705.588509 X218.139238 X392.293007 X792.589717 X838.632272 X426.358085 X207.159283 X245.115117 X104.071561 X219.144203 X748.531436 X837.684661 X347.315539 X385.275581 X752.560571 X832.583992 X341.268999 X364.264537 X599.509204 X766.574285 X767.546684 X368.279541 X869.700661 X834.600443 X400.342299 X623.509143 X766.541634 X778.576543 X398.326677 X848.556687 X768.556386 X794.571613 X840.583394 X740.525536 X141.113597 X684.569539 X625.525642 X780.59141 X895.715862 X825.656106 X810.601025 X732.555461 X809.65452 X820.524612 X790.541951 X765.529504 X764.524571 X844.525541 X792.555796 X806.569106 X788.523922 X782.570131 5 regression estimates/sd 5 X367.336025 X333.206163 X81.069693 X109.101222 X123.11696 X317.211172 X351.216669 X95.085441 X121.101299 X776.58048 X260.185852 X128.062202 X288.217194 X510.355549 X128.062202 X314.23269 X86.059777 X80.049305 X159.116392 X468.308637 X650.439418 X802.596624 X831.695882 X401.341633 X316.248368 X115.054299 X286.20147 X480.310053 X764.608394 X700.455626 X801.583142 X520.339918 X562.326965 X86.096445 X478.297546 X119.085604X275.20069 X622.408051 X321.205945 X524.371397 X774.564688 X800.580284 X466.330615 X198.185373 X132.065968 X786.601027 X464.318366 X132.102356 X454.294739 X461.228386 X558.295775 X467.337482 X188.07247 X438.299615 X316.321123 X854.555775 X255.228872 X756.554882 X118.086603 X72.080966 X776.581504 X785.653163 X173.132484 X773.654376 X786.600545 X323.221788 X799.669451 X858.585487 X826.595743 X483.36458 X136.112184 X728.586292 X116.070957 X747.610702 X787.604181 X828.538311 X523.358925 X205.097921 X618.618827 X375.174785 X831.557661 X774.659069 X338.341836 X480.201491 X315.23605 X255.11302 X856.570476 X333.299934 X270.279317 X522.355545 X745.621619 X206.102759 X305.211259 X200.023661 X126.023124 X527.247203 X352.321123 X395.362914 X220.206193 X284.125941 X675.544632 X717.589991 X512.335596 0 Standardized regression estimates logratio approach X791.563427 X772.54883 X349.201165 X625.525642 0 100 200 300 400 500 numbers of variables Metoda dı lc ı ch nejmens ı ch c tvercu pro kompozic nı data s aplikacı v metabolomice
Závěr Při zpracování metabolomických dat je potřeba vzít v potaz jejich specifické vlastnosti. Pro praktické účely je třeba zajistit interpretovatelné ortonormální souřadnice. Úprava PLS-DA pro kompoziční data probíhá v logratio souřadnicích. Kompoziční přístup k PLS-DA dává velmi dobré výsledky - ukazuje signifikantní metabolity lépe než standardní metodika.
Literatura Roux, A., Lison, D., Junot, Ch. and Heilier, J. (2011) Applications of liquid chromatography coupled to mass spectrometry-based metabolomics in clinical chemistry and toxicology: A review. Clinical Biochemistry 44, 119 135. Aitchison, J. (1986) The Statistical Analysis of Compositional Data. Chapman & Hall, London. Hron, K., Filzmoser, P., Thompson, K. (2012) Linear regression with compositional explanatory variables. Journal of Applied Statistics 39 (5), 1115 1128. Egozcue, J. J., Pawlowsky-Glahn, V. (2005) Groups of Parts and Their Balances in Compositional Data Analysis. Mathematical Geology, 37 (7), 795 828.
Literatura Filzmoser, P., Hron, K., Reimann, C. (2012) Interpretation of multivariate outliers for compositional data. Computers & Geosciences 39, 77 85. Roux, A., Lison, D., Junot, Ch., Heilier, J. (2011) Applications of liquid chromatography coupled to mass spectrometry-based metabolomics in clinical chemistry and toxicology: A review. Clinical Biochemistry 44, 119 135.