Imputace nulovy ch hodnot v metabolomice

Podobné dokumenty
Předzpracování kompozičních dat

kompoziční data s aplikací v metabolomice

Robust 2014, ledna 2014, Jetřichovice

Aplikace T -prostorů při modelování kompozičních časových řad

Alternativní přístup k analýze vícefaktorových dat

Klasická a robustní ortogonální regrese mezi složkami kompozice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Bayesovský p ístup k t-test m v kompozi ní analýze metabolomických dat

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

P-value. Alžběta Gardlo, Karel Hron Laboratoř metabolomiky Ústav molekulární a translační medicíny, UPOL a FNOL

A. (2011) Compositional data analysis: Theory and applications. Wiley, Chichester: Fišerová, E., Hron, K. On interpretation of orthonormal

Uni- and multi-dimensional parametric tests for comparison of sample results

Faculty of 1000 Biology award.

u Pacova Metoda pro validaci koncentrace přízemního ozónu kontinuálně měřené na Atmosférické 1 / 23sta

4EK211 Základy ekonometrie

Numerické metody a programování

AVDAT Mnohorozměrné metody metody redukce dimenze

Optimalizace provozních podmínek. Eva Jarošová

Robustní statistické metody

odlehlých hodnot pomocí algoritmu k-means

Navrhování experimentů a jejich analýza. Eva Jarošová

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

ROBUST PROGRAM NEDĚLE ODPOLEDNE oběd oběd bude čekat i na ty, kteří přijedou později registrace G. DOHNAL J.

11 Analýza hlavních komponet

Numerické metody a programování. Lekce 4

Karta předmětu prezenční studium

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

Algoritmy pro shlukování prostorových dat

Cvičení 9. Posudek únosnosti ohýbaného prutu metodou LHS v programu FREET. Software FREET Simulace metodou LHS

Cvičení 3. Posudek únosnosti ohýbaného prutu. Software FREET Simulace metodou Monte Carlo Simulace metodou LHS

Value at Risk. Karolína Maňáková

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

Matematika pro geometrickou morfometrii

IDENTIFIKACE BIMODALITY V DATECH

Vyjadřování přesnosti v metrologii

Zpracování a vyhodnocování analytických dat

Robustní odhady statistických parametrů

AVDAT Geometrie metody nejmenších čtverců

AVDAT Klasický lineární model, metoda nejmenších

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Klasifikační metody pro genetická data: regularizace a robustnost

Metody analýzy dat I. Míry a metriky - pokračování

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

Interpolace pomocí splajnu

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

Faster Gradient Descent Methods

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Přednáška 13 Redukce dimenzionality

Lineární algebra nad obecným Z m, lineární kódy

LEKCE12 FAKTOROVÁ ANALÝZA vzorový výsledek cvičení

Vybrané partie z obrácených úloh. obrácených úloh (MG452P73)

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

transformace je posunutí plus lineární transformace má svou matici vzhledem k homogenním souřadnicím [1]

Návod pro práci s SPSS

Intervalová data a výpočet některých statistik

Vytěžování znalostí z dat

7 Regresní modely v analýze přežití

SVD rozklad a pseudoinverse

Pravděpodobnost, náhoda, kostky

Klasifikace a rozpoznávání. Extrakce příznaků

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

11.Metody molekulové spektrometrie pro kvantitativní analýzu léčiv

8 Coxův model proporcionálních rizik I

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Soustavy linea rnı ch rovnic

Téma 4: Stratifikované a pokročilé simulační metody

Matematika pro geometrickou morfometrii (2)

Metodologie pro Informační studia a knihovnictví 2

Použití splinů pro popis tvarové křivky kmene

Ústav matematiky a statistiky Masarykova univerzita Brno. workshopy Finanční matematika v praxi III Matematické modely a aplikace Podlesí

Statistika pro geografy

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

PŘÍRUČKA ŘEŠENÝCH PŘÍKLADŮ

Kapitola 8. prutu: rovnice paraboly z = k x 2 [m], k = z a x 2 a. [m 1 ], (8.1) = z b x 2 b. rovnice sklonu střednice prutu (tečna ke střednici)

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Vícerozměrné statistické metody

Shluková analýza dat a stanovení počtu shluků

Statistická analýza jednorozměrných dat

Studijní program Matematika Obor Pravděpodobnost, matematická statistika a ekonometrie

Vícerozměrné statistické metody

Chyby měření 210DPSM

Hisab al-džebr val-muqabala ( Věda o redukci a vzájemném rušení ) Muhammada ibn Músá al-chvárizmího (790? - 850?, Chiva, Bagdád),

Statistická analýza dat

TECHNICKÁ UNIVERZITA V LIBERCI

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

MATEMATICKÁ STATISTIKA - XP01MST

Rosenblattův perceptron

0.1 Úvod do lineární algebry

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Učební texty k státní bakalářské zkoušce Matematika Základy lineárního programování. študenti MFF 15. augusta 2008

Úvod do problematiky měření

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Matematika B101MA1, B101MA2

Transkript:

Imputace nulovy ch hodnot v metabolomice Alz be ta Gardloa, Matthias Templb, Karel Hronc, Peter Filzmoserb alzbetagardlo@gmail.com a Laborator metabolomiky, U stav molekula rnı a translac nı medicı ny, Pr ı rodove decka fakulta, UPOL, Fakultnı nemocnice Olomouc; b Vienna University of Technology, Austria; c Pr ı rodove decka fakulta, UPOL. Robust, 13.9. 2016

Obsah 1 Metabolomika 2 Kompoziční data 3 Imputace nulových hodnot 4 Simulační studie 5 Závěr

Metabolomika (Wu et al., 2011)

Pivotové isometrické logratio (ilr) souřadnice Chceme vytvořit ortonormální bázi vzhledem k Aitchisonově geometrii, ve které první ilr souřadnice vysvětluje veškerou důležitou informaci o zvolené složce. Máme kompoziční matici X n D = (x 1,..., x D ). Přeuspořádaná kompozice s l-tým prvkem, l = 1,..., D, posunutým na první pozici je označena jako X (l) = (x l, x 1,..., x l 1, x l+1,..., x D ) = (x (l) 1, x(l) 2,..., x(l) Pivotové ilr souřadnice l, x (l) l+1,..., x(l) D ). z (l) D i i = D i + 1 ln x (l) i D i D j=i+1 x(l) j, i = 1,..., D 1. (1)

Druhy nulových hodnot Chybějící hodnoty Hodnota chybí z nějakého důvodu - nelze změřit, respondent neodpověděl na otázku. Nahrazení rozumnou hodnotou. V metabolomice se nevyskytují často. Zaokrouhlené nuly Vznikají zaokrouhlováním dat bĺızkých nule nebo díky tzv. detekčnímu limitu přístroje. Citlivost každého přístroje má své limity (detekční limit - DL) - hodnoty pod DL jsou vyhodnoceny jako nula, i když by měly být přítomny nějaké koncentrace. Je třeba nahradit s ohledem na DL. Časté v metabolomice, zejména při použití tzv. necíleného přístupu.

Imputace zaokrouhlených nul Většina současných statistických metod není schopna pracovat s nulovými hodnotami potřeba imputace. Současné metody nahrazování: Nahrazení nulových hodnot 2/3 limitu detekce nebo jinou vhodně zvolenou konstantou - často užívané, ale ignoruje mnohorozměrnou strukturu dat a podhodnocuje kovarianční strukturu. Metoda založená na k nejbližších sousedech - mnohorozměrná, ale pořád ne zcela ideální.

Imputace zaokrouhlených nul - přístupy Baĺıček zcompositions v softwaru R. Multiplicative replacement (mult repl) - nahrazení pomocí části DL (např. 2/3 DL). Multiplicative log-normal replacement (mult lognorm) - nahrazení nul s využitím multiplikativního lognormálního rozdělení. Multiplicative Kaplan-Meier smoothing spline replacement (mult KMSS) - nahrazení pomocí geometrického průměru náhodného výběru z kubické vyhlazovací funkce (odpovídá inverzi Kaplan-Meierovy EDF). Log-ratio data augmentation algorithm (lr da) - využití Markov chain Monte Carlo přístupu pro aditivní logratio (alr) souřadnice.

Imputace zaokrouhlených nul - přístupy Additive log-ratio EM algorithm (lr em) - postupné využití EM algoritmu pro alr souřadnice. PLS - využití pivotových ilr souřadnic a metody dílčích nejmenších čtverců - bere v úvahu kompoziční podstatu dat i existenci DL (více v posteru). Pre-selection of variables and model-based replacement of rounded zeros (method varols) - využívá variační matici pro výběr proměnných a redukci dimenze dat.

Validační kritéria 1 Average difference in covariance structure (ADCS) ADCS = 1 (D 1) 2 D 1 i=1 D 1 j=1 ( ) 2 s ij sij 1 = D 1 S S F, kde označuje imputovanou matici, S je výběrová kovarianční matice, F je Frobeniova maticová norma. 2 Compositional error deviation (CED) 1 n M k M d a (x k, x k ) max {d a(x i, x j )}, {x i,x j X} Aitchisonova vzdálenost dvou kompozic x a x: [ 1 d A (x, x) = D 1 ( ) ] 2 1/2. D D i=1 j=i+1 log x i x j log x i x j

Simulační studie Normální rozdělení na simplexu (výběrovém prostoru kompozic). 1 Nízko-dimenzionální scénář: datová matice X s n = 50 pozorováními a D = 16 proměnnými. Podíl hodnot pod DL (nul) je v rozpětí od 0 do 0.3, ty jsou v každé druhé proměnné. 2 Vysoce-dimenzionální scénář: datová matice X s n = 50 pozorováními a D = 128 proměnnými. Podíl nul stejný jako v nízko-dimenzionálním scénáři. 3 10% zaokrouhlených nul, rozdílné dimenze: datová matice X s n = 50 pozorováními a měnícím se počtem prvků kompozice (2, 4, 8, 16, 32, 64, 128, 256).

Simulační studie - Nízko-dimenzionální scénář varols mult lognorm lr da mult KMSS PLS mult repl lr em ADCS CED error measure 10 1.00 0.10 1 0.01 0.0 0.1 0.2 0.3 0.0 0.1 0.2 0.3 relative amount of rounded zeros

Simulační studie - Vysoce-dimenzionální scénář varols mult lognorm lr da mult KMSS PLS mult repl lr em ADCS CED 8 0.3 error measure 6 0.2 4 0.1 2 0.0 0.0 0.1 0.2 0.3 0.0 0.1 0.2 0.3 relative amount of rounded zeros

Simulační studie - Rozdílné dimenze varols mult lognorm lr da mult KMSS PLS mult repl lr em 100 ADCS CED 10.0 error measure 10 1.0 0.1 1 0 50 100 150 200 250 0 50 100 150 200 250 number of variables

Závěr Častý výskyt zaokrouhlených nul v metabolomických datech potřeba jejich imputace. Současně používané metody nahrazení (např. použití 2/3 detekčního limitu) nefungují korektně. Výhodné použití metody, která kombinuje přístup logratio metodiky a metody dílčích nejmenších čtvreců - je zachována mnohorozměrná povaha kompozičních dat.

Literatura M. Templ, K. Hron, P. Filzmoser, A. Gardlo. Imputation of rounded zeros for high-dimensional compositional data. Chemometrics and Intelligent Laboratory Systems, 155:183-190, 2016. J. Aitchison. The Statistical Analysis of Compositional Data. Chapman & Hall, London, 1986. B. Walczak, D.L. Massart. Dealing with missing data. Part I. Chemometrics and Intelligent Laboratory Systems, 58:15-27, 2001. J.A. Martín-Fernández, K. Hron, M. Templ, P. Filzmoser, J. Palarea-Albaladejo. Model-based replacement of rounded zeros in compositional data: Classical and robust approaches. Computational Statistics & Data Analysis, 56(9):2688-2704, 2012. K. Hron, M. Templ, P. Filzmoser. Imputation of missing values for compositional data using classical and robust methods. Computational Statistics & Data Analysis, 54(12):3095-3107, 2010. L. Najdekr, A. Gardlo, L. Mádrová, D. Friedecký, H. Janečková, E.S. Correa, R. Goodacre, and T. Adam. Oxidized phosphatidylcholines suggest oxidative stress in patients with medium-chain acyl-coa dehydrogenase defficiency. Talanta, 139:62-66, 2015.