Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy
Klasifikační metody pro genetická data Regularizovaná klasifikační analýza
Kardiovaskulární genetická studie Centrum biomedicínské informatiky (2006 2011) Data o n = 181 pacientech Akutní infarkt myokardu Mozková mrtvice Kontrolní osoby Genové exprese všech genů
Kardiovaskulární genetická studie Logaritmy hodnot genových expresí pro jednotlivé pacienty: Index Jméno genu genu Pacient 1 Pacient 2 Pacient 3 1 ADORA3 5,82 6,04 5,71 2 CPD 3,53 4,08 4,21 3 ECHDC3 2,50 2,71 2,99 4 VNN3 3,38 3,03 4,56 5 IL18RAP 4,03 4,91 5,12 6 ERLIN1 5,76 4,38 6,49 38 590 PHACTR1 5,21 4,99 5,15 Large p/small n problem (p n) Prokletí dimenzionality Řešení: Redukce dimenzionality Regularizace
Lineární diskriminační analýza (LDA) K různých skupin p-rozměrných dat Mnohorozměrná normalita (odlišné vektory středních hodnot, odlišné varianční matice) Pozorování Z je klasifikováno do k-té skupiny, která přes 1,, K maximalizuje diskriminační skór l k = 1 2 (Z X k ) T S 1 (Z X k ), kde X k = je průměr k-té skupiny, S = odhad společné varianční matice
Regularizovaná LDA Regularizovaná klasifikační analýza Klasifikuj Z do skupiny k, pokud ( X k Z) T S 1 ( X k Z) = arg min j=1,,k { } ( X k Z) T S 1 ( X k Z) Smrštěné odhady průměrů V k-té skupině: X k = δ X k + (1 δ) X, δ [0, 1] Smrštěný odhad varianční matice: S = λs + (1 λ)t, λ [0, 1] Algoritmy Klasifikační vs výpočetní chování
Výsledky: kardiovaskulární genetická studie Klasifikace: pacienti s mozkovou mrtvicí (24) vs kontroly (24) Exprese 38 590 genových transkriptů Metoda 1 klasif chyba SVM 100 Klasifikační strom 097 SOM (Kohonenova mapa) 094 Vícevrstvý perceptron Nelze LDA Nelze PAM 092 LDA 100 LDA 100 PCA s 20 hlavními komponentami: PCA = LDA 077 PCA = LDA 082 PCA = LDA 085
Klasifikační metody pro genetická data Regularizovaná klasifikační analýza
Pojem robustnost Regularizovaná klasifikační analýza Robustní statistika 1 Huber PJ (1964): Robust estimation of a location parameter Annals of Mathematical Statistics 35 (1), 73 101 2 Huber PJ (1981): Robust statistics Wiley, New York 3 Hampel FR, Rousseeuw PJ, Ronchetti EM, Strahel WA (1986): Robust Statistics: The approach based on influence functions Wiley, New York 4 Rousseeuw PJ, Leroy AM (1987): Robust regression and outlier detection Wiley, New York 5 Jurečková J, Sen PK (1996): Robust Statistical Procedures: Asymptotics and Interrelations Wiley, New York Robustní optimalizace, robustní data mining 1 Xanthopoulos, P, Pardalos, PM, Trafalis, TB (2013): Robust data mining Springer, New York
Proč robustní metody? Regularizovaná klasifikační analýza
Proč robustní metody? Regularizovaná klasifikační analýza Myšlenka: LDA + odhad Minimum Weighted Covariance Determinant + Regularizace
Shluková analýza pro kategoriální data 1 skupina 2 skupina J-tá skupina Zdar n 11 n 12 n 1J n 1 Nezdar n 21 n 22 n 2J n 2 n 1 n 2 n J n 1 skupina 2 skupina J-tá skupina Zdar π 1 π 2 π J Nezdar 1 π 1 1 π 2 1 π J 1 1 1 Odhad π j pro j = 1,, J: p j = (1 λ) n 1j n + λ n1 n, λ = χ 2 = [ J (n1j n j pj ) 2 j=1 n j p j 1 J (n 1) J j=1 ( n1j ) 2 j=1 n ( n1 n 1j n ] + (n 2j n j (1 p j )) 2 n j (1 p j ) ) 2
Otevřené problémy 1 Kalina J (2014): Classification methods for high-dimensional genetic data Biocybernetics and Biomedical Engineering 34 (1), 10 18 2 Kalina J, Duintjer Tebbens J (2014): Computation of regularized linear discriminant analysis Proceedings COMPSTAT 2014, 21 st International Conference on Computational Statistics Přijato 3 Kalina J, Seidl L, Zvára K, Grünfeldová H, Slovák D, Zvárová J (2013): Selecting relevant information for medical decision support with application to cardiology European Journal for Biomedical Informatics 9 (1), 2 6 = DĚKUJI ZA POZORNOST =