Klasifikační metody pro genetická data: regularizace a robustnost



Podobné dokumenty
AVDAT Mnohorozměrné metody, metody klasifikace

Strojové učení Marta Vomlelová

Klasická a robustní ortogonální regrese mezi složkami kompozice

Přednáška 13 Redukce dimenzionality

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Marta Vomlelová

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ANALÝZA A KLASIFIKACE DAT

Robustní statistické metody

Těsně před infarktem. Jak předpovědět infarkt pomocí informatických metod. Jan Kalina, Marie Tomečková

METODY PRO REDUKCI DIMENZE V MNOHOROZMĚRNÉ STATISTICE

Lineární diskriminační funkce. Perceptronový algoritmus.

Kybernetika a umělá inteligence, cvičení 10/11

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Klasifikace a rozpoznávání. Lineární klasifikátory

KLASIFIKAČNÍ A REGRESNÍ LESY

Modelování sesuvu svahu v Halenkovicích pomocí metody kriging

Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii

Odhady polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

kompoziční data s aplikací v metabolomice

Úvod do optimalizace, metody hladké optimalizace

Pokročilé neparametrické metody. Klára Kubošová

Metody zpracování a analýzy medicínských obrazových dat: možnosti využití v neurovědním výzkumu

Vzdělávání v Biomedicínské a Zdravotnické Informatice

Uznávání předmětů ze zahraničních studijních pobytů

ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK

Využití metod strojového učení v bioinformatice David Hoksza

Rozpoznávání v obraze

Úvodem Dříve les než stromy 3 Operace s maticemi

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Robustní odhady kovarianční matice

Lineární klasifikátory

analýzy dat v oboru Matematická biologie

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Vanda Vintrová, Tomáš Vintr, Hana Řezanková, Vladimír Úradníček. Informační bulletin České statistické společnosti, 1/2014

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Automatická oprava textu v různých jazycích

Extrakce a selekce příznaků

Umělá inteligence a rozpoznávání

OR Biomedicínská informatika

dat Robust ledna 2018

Nový obor - počítače v medicíně a biologii

Algoritmy a struktury neuropočítačů ASN P6

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Support Vector Machines (jemný úvod)

Strojové učení Marta Vomlelová

Genetické programování 3. část

Asociační i jiná. Pravidla. (Ch )

Modelová složitost neuronových sítí - zdánlivý paradox

Implementace Bayesova kasifikátoru

Robustní odhady statistických parametrů

Informace pro uznávání předmětů ze zahraničních studijních pobytů (2016/17) Státnicové předměty navazujících magisterských studijních oborů

LINEÁRNÍ MODELY. Zdeňka Veselá

Získávání znalostí z dat

ROBUST PROGRAM NEDĚLE ODPOLEDNE oběd oběd bude čekat i na ty, kteří přijedou později registrace G. DOHNAL J.

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU

dokumentu: Proceedings of 27th International Conference Mathematical Methods in

Uni- and multi-dimensional parametric tests for comparison of sample results

Využití a zneužití statistických metod v medicíně

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

8 Coxův model proporcionálních rizik I

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Robust 2014, ledna 2014, Jetřichovice

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

nské informatice Prof. RNDr. Jana Zvárová, DrSc. informatiku, nské informatiky Ústav informatiky AV ČR R v.v.i.

Moderní systémy pro získávání znalostí z informací a dat

Aplikace T -prostorů při modelování kompozičních časových řad

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Vyhněte se katastrofám pomocí výpočetní matematiky

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

ANALÝZA A KLASIFIKACE DAT

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

Regulační diagramy EWMA. Eva Jarošová Škoda Auto Vysoká škola

ROBUST 2014 Jetřichovice ledna

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

REPORT ON THE ACTIVITIES OF THE CZECH STATISTICAL SOCIETY IN 2010 ZPRÁVA O ČINNOSTI ČESKÉ STATISTICKÉ SPOLEČNOSTI V ROCE 2010 Gejza Dohnal

Algoritmy pro shlukování prostorových dat

Swarm Intelligence. Moderní metody optimalizace 1

Kartometrická analýza Vogtovy mapy

AVDAT Mnohorozměrné metody metody redukce dimenze

GRAFICKÉ MODELY V ANALÝZE FINANČNÍCH DAT

PŘEDNÁŠKA 03 OPTIMALIZAČNÍ METODY Optimization methods

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

APLIKACE UMĚLÉ INTELIGENCE V EKONOMICKÉ OBLASTI THE APPLICATION OF ARTIFICIAL INTELLIGENCE IN THE FIELD OF ECONOMICS

Imputace nulovy ch hodnot v metabolomice

Údaje k předkládaným výsledkům pro kontrolu do RIV

Nový bakalářský studijní obor Biomedicínská informatika na Fakultě biomedicínského inženýrství v Kladně

Hledání nápadů v textových zdrojích

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Připomeň: Shluková analýza

IBM SPSS Decision Trees

Použití technik UI v algoritmickém obchodování II

Lze zbohatnout pomocí matematiky?

Transkript:

Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy

Klasifikační metody pro genetická data Regularizovaná klasifikační analýza

Kardiovaskulární genetická studie Centrum biomedicínské informatiky (2006 2011) Data o n = 181 pacientech Akutní infarkt myokardu Mozková mrtvice Kontrolní osoby Genové exprese všech genů

Kardiovaskulární genetická studie Logaritmy hodnot genových expresí pro jednotlivé pacienty: Index Jméno genu genu Pacient 1 Pacient 2 Pacient 3 1 ADORA3 5,82 6,04 5,71 2 CPD 3,53 4,08 4,21 3 ECHDC3 2,50 2,71 2,99 4 VNN3 3,38 3,03 4,56 5 IL18RAP 4,03 4,91 5,12 6 ERLIN1 5,76 4,38 6,49 38 590 PHACTR1 5,21 4,99 5,15 Large p/small n problem (p n) Prokletí dimenzionality Řešení: Redukce dimenzionality Regularizace

Lineární diskriminační analýza (LDA) K různých skupin p-rozměrných dat Mnohorozměrná normalita (odlišné vektory středních hodnot, odlišné varianční matice) Pozorování Z je klasifikováno do k-té skupiny, která přes 1,, K maximalizuje diskriminační skór l k = 1 2 (Z X k ) T S 1 (Z X k ), kde X k = je průměr k-té skupiny, S = odhad společné varianční matice

Regularizovaná LDA Regularizovaná klasifikační analýza Klasifikuj Z do skupiny k, pokud ( X k Z) T S 1 ( X k Z) = arg min j=1,,k { } ( X k Z) T S 1 ( X k Z) Smrštěné odhady průměrů V k-té skupině: X k = δ X k + (1 δ) X, δ [0, 1] Smrštěný odhad varianční matice: S = λs + (1 λ)t, λ [0, 1] Algoritmy Klasifikační vs výpočetní chování

Výsledky: kardiovaskulární genetická studie Klasifikace: pacienti s mozkovou mrtvicí (24) vs kontroly (24) Exprese 38 590 genových transkriptů Metoda 1 klasif chyba SVM 100 Klasifikační strom 097 SOM (Kohonenova mapa) 094 Vícevrstvý perceptron Nelze LDA Nelze PAM 092 LDA 100 LDA 100 PCA s 20 hlavními komponentami: PCA = LDA 077 PCA = LDA 082 PCA = LDA 085

Klasifikační metody pro genetická data Regularizovaná klasifikační analýza

Pojem robustnost Regularizovaná klasifikační analýza Robustní statistika 1 Huber PJ (1964): Robust estimation of a location parameter Annals of Mathematical Statistics 35 (1), 73 101 2 Huber PJ (1981): Robust statistics Wiley, New York 3 Hampel FR, Rousseeuw PJ, Ronchetti EM, Strahel WA (1986): Robust Statistics: The approach based on influence functions Wiley, New York 4 Rousseeuw PJ, Leroy AM (1987): Robust regression and outlier detection Wiley, New York 5 Jurečková J, Sen PK (1996): Robust Statistical Procedures: Asymptotics and Interrelations Wiley, New York Robustní optimalizace, robustní data mining 1 Xanthopoulos, P, Pardalos, PM, Trafalis, TB (2013): Robust data mining Springer, New York

Proč robustní metody? Regularizovaná klasifikační analýza

Proč robustní metody? Regularizovaná klasifikační analýza Myšlenka: LDA + odhad Minimum Weighted Covariance Determinant + Regularizace

Shluková analýza pro kategoriální data 1 skupina 2 skupina J-tá skupina Zdar n 11 n 12 n 1J n 1 Nezdar n 21 n 22 n 2J n 2 n 1 n 2 n J n 1 skupina 2 skupina J-tá skupina Zdar π 1 π 2 π J Nezdar 1 π 1 1 π 2 1 π J 1 1 1 Odhad π j pro j = 1,, J: p j = (1 λ) n 1j n + λ n1 n, λ = χ 2 = [ J (n1j n j pj ) 2 j=1 n j p j 1 J (n 1) J j=1 ( n1j ) 2 j=1 n ( n1 n 1j n ] + (n 2j n j (1 p j )) 2 n j (1 p j ) ) 2

Otevřené problémy 1 Kalina J (2014): Classification methods for high-dimensional genetic data Biocybernetics and Biomedical Engineering 34 (1), 10 18 2 Kalina J, Duintjer Tebbens J (2014): Computation of regularized linear discriminant analysis Proceedings COMPSTAT 2014, 21 st International Conference on Computational Statistics Přijato 3 Kalina J, Seidl L, Zvára K, Grünfeldová H, Slovák D, Zvárová J (2013): Selecting relevant information for medical decision support with application to cardiology European Journal for Biomedical Informatics 9 (1), 2 6 = DĚKUJI ZA POZORNOST =