INSTITUT BIOSTTISTIKY NLÝZ Lékařská fakulta & Přírodovědecká fakulta Masarykova univerzita, Brno wwwibamunicz plikovaná analýza dat v oboru matematická biologie Kamenice 126/3, 625 00 Brno, Czech Republic INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
IB MU hlavní projektové oblasti 1) Epidemiologie zhoubných nádorů, prediktivní epidemiologie 2) nalýza klinických dat, diagnostická síla testů 3) Hledání prognostických a prediktivních faktorů v medicíně 4) Budování, správa a analýza klinických registrů 5) nalýza humánních a ekologických rizik 6) nalýza environmentálních dat, analýza biodiverzity, faktory ovlivňující životní prostředí, environmentální informatika 7) Zdravotnická informatika, vývoj analytických a expertních systémů 8) Modelování biologických systémů a simulace 9) nalýza obrazových dat 10) Genomika, proteomika, analýza molekulárně biologických dat
Matematický biolog a analýza dat Evironmentální vědy nalýza experimentálních dat nalýza klinických a populačních dat Výzkum a vývoj nových technologií, biotechnologií Genomika, proteomika, genové inženýrství Klinický výzkum a zdravotnictví Základní biologický výzkum Ekologický výzkum Plánování a optimalizace experimentu
Matematická biologie zasahuje všechny v úrovně Retrospektivní Popis proběhlých změn Ekosystém Přírodní populace BIOINDIKCE BIOTESTY Experimentální přístupy Jedinec Experimentální populace BIOMRKERY Molekulárně biologické a biochemické markery Mechanismy účinku Molekulární úroveň Prospektivní
Matematický biolog a analýza dat: přidanp idaná hodnota Schopnost kritické zpětné vazby Programátor Vývojář Statistik Informatik Matematik NLYTIK Významný podíl práce s externími znalostmi
Computational biology overall view Bachelor degree MSc degree Ecology Experimental biology Molecular biology nd many more Specialization: select your mission dvanced courses on general topics of biology, mathematics, ICT nd many more Basic courses scientific background of computational biology Stochastic modelling Multivariate analyses Biostatistics Biology Mathematics ICTs
Computational biology overall view Bachelor degree 1 st year 2 nd year 3 rd year Specialization 20% 14% 22% 20% 45% 43% 53% 29% 57% 27% 33% 37% 4 th year 5 th year Specialization Overall MSc degree 44% 11% 45% 20% 0% 24% 31% 31% 34% 80% 45% 35% Biology Mathematics ICT
NLÝZ DT Stochastická? Deteministická 5 4 3 2 Popis, definice pα Y α Výpočet efektivní koncentrace (ECx) α Y = 1+ p β (x - μp) 1 - p e x = ln (koncentrace) μp = ln EDp 1 0 0 0,2 0,4 0,6 0,8 1 Verifikace, µp X
NLÝZ DT je o datech Ukázka uspořádaného datového souboru cislo stadium vek tran1_3 tran1_4 tran1_5 tran1_6 alb_pbsct ldh_vstup sternum typ_myel 1 3 33 10436 2324 1043 5777 33 602 04 IgG 2 3 33 18488 784 1055 1382 26 401 30 IgG 3 1 34 12341 98 733 1305 32 373 452 IgG 4 2 43 5217 666 1803 1719 42 467 408 IgG 5 1 45 822 22 822 32 825 2 B-J 6 3 46 40308 11531 297 717 388 Ig 7 2 49 45 1225 34 499 64 IgG 8 2 50 3313 964 3313 35 399 14 IgG 9 3 52 25708 1205 8516 324 39 1214 122 IgG Primární data 10 2 53 7833 1134 4754 777 39 53 136 IgG 11 3 53 6143 467 1438 372 32 451 492 B-J 12 3 53 1358 67 1358 593 38 26 IgG 13 3 54 12916 1333 926 3824 32 418 20 IgG 14 3 54 6689 674 3358 173 38 844 72 B-J 15 3 54 8286 432 189 164 37 36 50 B-J 16 3 55 7137 634 2391 534 43 875 27 B-J 17 3 60 146 09 146 1188 44 535 75 IgG 18 3 61 9407 562 9407 151 33 429 64 B-J 19 3 62 8684 753 3213 261 29 455 34 Ig Sumarizace v jedné skupině ( one-sample ) ve dvou skupinách ( two-sample ) ve více skupinách ( multiple sample )
NLÝZ BIOLOGICKÝCH DT je o variabilitě Variabilita opakovaných měření Variabilita znaku v populaci chyba Data 2,1 2,8 3,2 1,2 5,2 2,9 165 cm 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita Variabilita modelovaných dat Variabilita časových řad Variabilita ve skladbě biologických společenstev y y DRUH 1 DRUH 2 DRUH 3 DRUH 4 15 30 40 14 chyba = nepřesnost modelu x čas fluktuace, časová proměnlivost biodiverzita
Jak vznikají analýzou dat informace Y: frekvence KOLIK se - absolutní / relativní naměřilo y y B C D E x I II III IV V x CO se naměřilo X: měřený znak Diskrétní data Spojitá data
NLÝZ DT Stochastická Explorační 1 0,75 1 0,75 0,5 0,5 0,25 0,25 0 0 0,2 0,4 0,6 0,8 1 0 0 0,2 0,4 0,6 0,8 1 Konfirmační 2 MX 2 1 MX MIN 1 MIN Prokázání rozdílu ve středových hodnotách i přes variabilitu znaku
NLÝZ DT Statických systémů Dynamických systémů 1 0,75 10 08 M/(+05) =10 a1 0,5 0,25 06 04 P =050 a2 a2 0 0 0,2 0,4 0,6 0,8 1 02 00 00 05 10 15 20 25 30 35 Typologie Klasifikace Diskriminace Vývoj a trendy Sesonalita Pravděpodobnost změny Predikce
NLÝZ DT Primární data 1 n x? ( ±) POPIS x? x B SROVNÁNÍ x 1 x 2 x 3 x p Sumarizace statistikou středu a variability 1 Odhady (sumarizace) Vícerozměrné analýzy ODHDY bodové intervaly spolehlivosti 2 STTISTICKÉ TESTY
NLÝZ DT Jednorozměrná Vícerozměrná 1 Y X1 X2 X3 X4 Xp n
Vícerozměrná analýza dat = nová kvalita
Vícerozměrná analýza dat = nová kvalita X 2 B B B B B B B B B B B B B B B B B B B B B B V kombinaci parametrů je prediktivní síla X 1
nalýza dat o biodiverzitě Primary data There is redundant offer of measures, however without focus on small communities Forms -> X1 X2 X3 Species 1 II III IV V VI VII Derived indices S, species richness R1 = (S-1)ln N R2 = S/ N H = - i (p i lnp i ) H adj N1 = e H Quantity Species rank models N2 = 1/ i p i 2 E1 = H /ln S = H / H max 1 2 3 4 5 6 7 8 9 10 11 12 13 Species rank
nalýza dat o biodiverzitě - modelování Stochastic models Niche oriented models Tokeshi,, J nnual Ecol, 1990 1994 > 20 species P i = f(n,s,k) > 4 5 species
MatBiol a aplikovaná analýza dat Hodnocení ekologických rizik Environmentální aplikace nalýza biodiverzity Klinické studie Klinická a populační data Experimentální vědy Genomika, proteomika nalýza dat na PC Vícerozměrné metody zpracování dat Základy stochastického modelování Biostatistika Plánování experimentů
Současný trend stochastické analýzy dat Od zobecnění k individualizaci Faculty of Science, Masaryk University, Brno Faculty of Medicine, Masaryk University, Brno
Od zobecnění k individualizaci Podíl přežívajících pacientů 10 08 06 04 02 00 p = 0,032 0 20 40 60 80 100 120 10 p = 0,001 08 05 03 00 0 10 20 30 40 50 60 Čas (měsíce) Posun v mediánu přežití múže být klinicky i statisticky významný - LE nikdy se nebude týkat všech pacientů
Od zobecnění k individualizaci Člověk - pacient Nádor + molekulárně biologická data Léčba
Od zobecnění k individualizaci I Vícerozměrná investigativní analýza PC 1 (6047 %) PC2 (2805 %) 1 Mitosis poptosis -1 0 1 bcl2 II Definice diskriminačních indexů/skóre M / ( + 05) (M + 03*KI-67) / ( + 85) Di = 0096[PCN] - 0108[KI] + 1802[M] - 1688[] - 1042-1 KI-67 III Pravděpodiobnostní predikce na individuální bázi Estimated probability of early relapse 10 08 06 04 02 M/(+05) =10 P =050 00 00 05 10 15 20 25 30 35 Ratio M / ( + 05) 10 08 06 04 02 M/(+05) =15 Regression 00 95% confid 00 05 10 15 20 25 30 35 Index Mitosis / (poptosis + 05) P =050 Grade = 2 Grade = 1 Regression 95% confid
Od zobecnění k individualizaci poptóza () N = 565 nádorových vzorků od 5 diagnostických skupin Plně regulovaný 0 Regulovaný / regresivní typ Typ I (131%) Typ III (356%) Typ II (364%) [069;045] 0 Typ IV (148%) Neregulovaný intenzivní růst Mitóza (M) Degenerovaný fenotyp Diploidní nádor neuploidní nádor Definice čtyř typů tumorů na základě apoptoticko mitotické charakteristiky I IV, s korelacemi k ploiditě a dalším markerům
Od zobecnění k individualizaci N = 565 nádorových vzorků od 5 diagnostických skupin DFS OS 10 10 Typ I 08 08 06 06 Typ III 04 Typ IV 04 02 02 Typ II 00 00 0 20 40 60 80 100 120 140 0 20 40 60 80 100 120 140 Čas (měsíce)
nalýza genomických a proteomických dat Gene expression profiles Discrimination power? ssociation with clinical data?? Information redundancy? S Ramaswamy et al, Nature Genetics, January 2003
nalytik dat jako vývojář software? Faculty of Science, Masaryk University, Brno Faculty of Medicine, Masaryk University, Brno
SW solution Ukázka produktu Predefined user controlled analytic tools Comprehensive presentations with comments and access to appropriate analytic tools Data browser - analysis of individual parameters
Ukázka produktu http://wwwsvodcz bout project News Epidemiological analyses Publications, reports Software SVOD nalytic tools tutorial Portal solution Incidence and mortality Time trends Regional overview ge analyses Clinical stages Epidemiological analyses International data Comparative standards Comprehensive overview
Rozvoj studijního oboru Matematická biologie PřF MU Brno je finančně podporován prostředky projektu ESF č CZ107/2200/070318 Víceoborová inovace studia matematická biologie a státním rozpočtem České republiky INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ