Bayesovský p ístup k t-test m v kompozi ní analýze metabolomických dat Julie Rendlová 1,2,3, Karel Hron 1, Ond ej Vencálek 1, David Friedecký 2,3 ROBUST 2018 1 KMAAM, P F, Univerzita Palackého 2 OKB, Fakultní nemocnice Olomouc 3 Laborato metabolomiky, ÚMTM, Univerzita Palackého
Jak vznikají metabolomická data Pro d lat bayesovský t-test Pro uplat ovat kompozi ní p ístup Co je na posteru
Metabolomika zabývá se malými molekulami (aminokyseliny, sacharidy,... ) soubor v²ech molekul v daném biologickém materiálu (krev, mo, bu ky,... ) je metabolom Cílená metabolomická analýza seznam metabolit p ed analýzou mén nam ených látek jednodu²²í interpretace Necílená metabolomická analýza m í se v²e, co se ve vzorku najde vhodné, kdyº se hledají nové markery nemocí sloºitá interpretace (metabolity, fragmenty, adukty, ²um)
Postup m ení m ení odebraných vzork pacient a kontrol v náhodném po adí vzorky prochází 1) kapalinovým chromatografem pr chod molekul ur í RT metabolit se adí metabolity 2) hmotnostním spektrometrem ²t pení na fragmenty dané hmoty metabolity se stejným RT se rozbijí na fragmenty p echod z dané hmoty na fragmenty ur í p vodní metabolit nejspeci t j²í p echod se vykreslí (AUC odpovídá intenzit p vodního metabolitu)
Postup m ení p ístroje
Postup m ení chromatogracké píky Intenzita (cps) 2.8e5 2.6e5 2.4e5 2.2e5 2.0e5 1.8e5 1.6e5 1.4e5 1.2e5 1.0e5 8.0e4 6.0e4 4.0e4 fenylalanin prolin 4-guanidinobutanoát nikotinamid serin cytosin tyrosin cholin histidin adenosin threonin/homoserin cytidin tryptofan guanosin AMP 2.0e4 0.0 2 4 6 8 10 12 14 16 18 20 22 Čas (min) 24 26 28 30 32 34 36
P edzpracování dat píky se zintegrují AUC náhodné vlivy ovliv ují m ení narovnání trendu pomocí LOESS regrese, kontrola CV p edzpracováním se zna ný po et metabolit vy adí z dat vstupní data pro statistickou analýzu: pozorování pacienti a kontroly ( ádky) prom nné plochy intenzit metabolit (sloupce) stovky prom nných, jednotky aº desítky pozorování vysoce dimenzionální data
Tradi ní p ístup k jednorozm rným statistickým metodám parametrický t-test nebo neparametrický Wilcoxon v test na hladin významnosti α = 0.05 mnohonásobné testování r st pravd podobnosti získání fale²n pozitivních výsledk p i stovkách prom nných je Bonferroniho korekce p íli² konzervativní p i stovkách prom nných Bonferroniho korekce neumoºní u Wilcoxna zamítat výsledky t-test prudce ovlivn ny p ítomností odlehlých hodnot výsledky t-test a Wilcoxonových test jsou chudé pouze p-hodnoty neposkytují moºnost se adit metabolity dle nejlep²ího
Bayesovský t-test apriori p edpokládáme data z t-rozd lení s t ºkými chvosty p irozen robustní metoda (Kruschke, 2012) parametry pro apriorní rozd lení: st ední hodnoty (µ1, µ 2 ) a sm rodatné odchylky (σ 1, σ 2 ), parametr normality (ν po et stup volnosti) Bayesova v ta aposteriorní rozd lení je proporcionální v rohodnostní funkci (podmín ná pravd podobnost dat za podmínky daných parametr ) vynásobené apriorním rozd lením (Kruschke, 2011) pro aposteriorní rozd lení Bayesovského t-testu platí: p(µ 1, σ 1, µ 2, σ 2, ν D) p(d µ 1, σ 1, µ 2, σ 2, ν) p(µ 1, σ 1, µ 2, σ 2, ν) k p ibliºnému výpo tu aposteriorního rozd lení pouºijeme MCMC generuje kombinace parametr µ j 1, σj 1, µj 2, σj 2, νj, j = 1,..., N
Bayesovský t-test zajímá nás p edev²ím rozdíl µ 1 a µ 2 získáme aposteriorní histogramy MCMC rozdíl mezi pacienty a kontrolami konstrukce HDI interval intervaly s 95 % nej ast j²ích aposteriorních hodnot pokud HDI neobsahuje nulu, hypotéza o rovnosti parametr se zamítá mean = 5.15 mean = 1.69 0% < 0 < 100% 100% < 0 < 0% 95% HDI 4.74 5.56 0 1 2 3 4 5 µ 1 µ 2 95% HDI 1.94 1.43 2.0 1.5 1.0 0.5 0.0 µ 1 µ 2
Kompozi ní data metabolom v libovolném biologickém materiálu je sloºený z mnoha metabolit relativní struktura metabolomu relevantní informace pouze v pom rech mezi intenzitami metabolit kompozi ní data na simplexu simplex se ídí Aitchisonovou geometrií namísto euklidovské (Aitchison, 1986; Pawlowsky-Glahn et al., 2015) vyjád it kompozice ze simplexu v reálných sou adnicích centrované logpodílové koecienty clr(x) = ln x 1 D D 1 x i, ln x 2 D D 1 x i,..., ln x D D D 1 x i odpovídají centrování log transformovaných dat podle v²ech prom nných jsou jednodu²e interpretovatelné dominance daného metabolitu v i pr m rnému chování celého metabolomu
Rozdíl mezi nekompozi ním a kompozi ním p ístupem mean = 0.206 mean = 0.104 99.9% < 0 < 0.1% 13.3% < 0 < 86.7% 95% HDI 0.331 0.0797 0.3 0.2 0.1 0.0 µ 1 µ 2 95% HDI 0.0812 0.289 0.1 0.0 0.1 0.2 0.3 µ 1 µ 2
Co je na posteru jak je konstruovaný bayesovský t-test princip testu, apriorní rozd lení, MCMC jak to funguje u vícenásobného testování hledání marker, azení marker podle st edních hodnot aposteriorních rozd lení a tzv. b-hodnot co to je volcano graf bayesovská verze, pásma podle vzdálenosti HDI aposteriorních rozd lní od nuly aplikace na metabolomických datech z necílené analýzy krevní skvrny pacient s d di ným metabolomickým onemocn ním (decit acyl-coa dehydrogenázy se st edn dlouhým et zcem; Najdekr et al., 2015) a zdravých kontrol simulace úbytku pozorování na polovinu v obou skupinách porovnání bayesovského a tradi ního p ístupu simulace výskytu systematické chyby m ení porovnání kompozi ního a nekompozi ního p ístupu
Literatura Aitchison, J. (1986) The statistical analysis of compositional data. Chapman and Hall, London. Kruschke, J.K. (2011) Doing Bayesian Data Analysis. Academic Press, New York. Kruschke, J.K. (2012) Bayesian Estimation Supersedes the T Test. Journal of Experimental Psychology: General 142 (2), pp.73603. Najdekr, L., Gardlo, A., Mádrová, L., Friedecký, D., Jane ková, H., Correa, E. S., Goodacre, R., Adam, T. (2015) Oxidized phosphatidylcholines suggest oxidative stress in patients with medium-chainacyl-coadehydrogenase deciency. Talanta 139, pp.266. Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2015) Modeling and analysis of compositional data. Wiley, Chichester.