Bioinformatika a výpočetní biologie KFC/BIN I. Přehled RNDr. Karel Berka, Ph.D. Univerzita Palackého v Olomouci
KFC/BIN - Podmínky Seminární práce: http://rosalind.info/ - alespoň 10 vyřešených problémů = zápočet - každých dalších 10 = + jedno A ke zkoušce Ústní zkouška: 3 otázky hodnoceny každá A-F Výsled medián známek
Definice bioinformatiky (Molecular) bio informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of physical chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the data and information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications. Oxford English Dictionary
Definice bioinformatiky spojení biologických věd s informatikou počítačové zpracování, organizace, ukládání a vizualizalizace biologických dat a jejich aplikace iteulike oblak klíčových slov pro bioinformatics
Přehled témat bioinformatiky hledání genů a skládání genomů porovnávání sekvencí (alignment) analýza a predikce struktury proteinů a NA hledání léčiv (drug design a discovery) predikce a analýza interakcí mezi proteiny predikce genové exprese modelování molekulární evoluce Wikipedia
Organizace biologických informací biologické informace redundantní a mnohonásobné Genetický kód je redundantní Organismus má mnoho podobných genů Gen může mít více funkcí Rozdílné proteinové sekvence mají stejnou strukturu
Guy Cochrane Nárůst dat
Biologická data I Zdroj dat Velikost dat Bioinformatika DNA sekvence Proteinová sekvence Genomy 349 132 140 sekvencí 881 404 804 386 nukleotidů (Genbank+WGS, 06/2014) cca 1 TB dat 80 370 243 sekvencí 25 385 271 479 aminokyselin (SwissProt+TrEMBL, 07/2014) cca 25 GB dat 11 617 genomů (Ensembl, 04/2014) cca 1 PB (1000 Genomes, 04/2013 z 2535 jedinců) Ontologie 52623645052881400 (GeneOntology, 07/2014) Makromolekulární 102 158 3D struktur (~1500 koordinát) struktura cca 150 GB Hledání genů Predikce produktu genů Hledání mutací a jejich vlivu Srovnávání sekvencí a fylogenetika Predikce struktury proteinů Predikce funkce proteinů Srovnávání sekvencí a fylogenetika Hledání sekvenčních motivů Identifikace genetických chorob Molekulární evoluce a fylogenetika Hledání částí genomu (geny, exony, introny, cizí DNA, repetice,...) Genomic-scale census (porovnávání obsahu proteinů, metabolických drah, ) Hierarchický popis funkce, lokace,... Hledání souvislostí 3D strukturní porovnávání Geometrie molekuly a její interakce Molekulární simulace funkce in silico návrh léčiv
Biologická data II Zdroj dat Velikost dat Bioinformatika Proteomika, Genomika 1 genom člověka cca 700 GB proteom cca 1 TB/den Hledání variací a mutací mezi jedinci a mezi rozdílnými buňkami Exprese (genů, proteinů, ) Robotické HTS testy DNA čipy (obrazové info: 1 TB/den) např. 1000 testů najednou (obrazové info: TB/den) řádově PB Mapování expresních dat (produkce) na sekvenční a biochemické data Testování látek automatizovanými testy Hledání léčiv Biologická literatura Chemické látky 24 milionů citací (~5 MB PDF soubor) (PubMed, 07/2014) 100 TB 35 milionů molekul (ZINCdb, 08/2014) 15 GB Hledání informací a souvislostí Tvorba znalostních databází Data mining Cheminformatika Racionální návrh léčiv Organická syntéza
Počítačové zpracování Databáze ukládání, hledání Analýza textu sekvenční analýzy, porovnávání sekvencí, hledání klíčových slov Hledání motivů Neuronové sítě, clusterová analýza, data mining, Markovovské řetězce Geometrie 3D grafika, robotika, 2D/3D rozpoznávání obrazu Fyzikální simulace Mechanika, elektrostatika, numerické algoritmy, simulace
Genom Hledání genů introny, exony, promotory, cizí kusy DNA Charakteristika opakujících se kusů DNA forenzní analýza Hledání duplicit v genomu
Velikosti genomů Mycoplasma genitalium Escherichia coli Saccharomyces cerevisiae 16 chr. 0.58 Mbp 4.6 Mbp 11.2 Mbp Caenorhabtitis elegans 6 chr. 97.0 Mbp Arabidopsis thaliana 5 chr. 115.4 Mbp Drosophila melanogaster 5 chr. ~137.0 Mbp Homo sapiens 24 chr. ~ 3.3 Gbp
Analýza sekvencí Porovnávání sekvencí 1:1 1:n lokální nebo globální porovnání hledání konsensní sekvence pro třídu proteinů mapování evoluce Hledání vlastností sekundární struktura hydrofobicita transmembránové segmenty
Predikce proteinové struktury Terciární struktura rozpoznání foldu homologní modelování strukturní alignment ab initio modelování Predikce funkce hledání aktivních míst a kanálů
Strukturní výpočetní biologie Molekulární grafika vodítko pro hypotézy Simulace Struktura => Energie vývoj v čase Docking hledání jak a kam se látky váží ligandy proteiny mezi sebou Helikáza rozevírající DNA docking do acetyltransferázy v programu GOLD
Analýza obrazu s vysokou propustností Analýza genové exprese Analýza proteinové exprese Funkční a toxikologické analýzy
Modelování biologických systémů matematická biologie e-cell
Sledování molekulární evoluce Fylogenetické stromy hledání společného předka podle podobnosti - změna probíhá v liniích časem - dělení po dvojicích
Ideální případ
Souhrn
Modelování buňky Na http://fch.upol.cz/skripta/bin/cell-wholesimulation.pdf samotný článek http://fch.upol.cz/skripta/bin/wholecellsim.mp4 - video
Modelový organismus M. genitalium Záněty močových cest
Simulace celé jedné buňky M. genitalium 525 genů
Buněčné funkční modely Krok: 1 s Moduly s mnoha proměnnými a modely pro jednotlivé procesy Pokračuje, dokud se buňka nerozdělí Poisson processes Flux-balance analysis
Konec simulace Když se buňka rozdělí na dvě
Přehled
Validace modelu Simulace 128 buněk v typickém prostředí Predikce: Vlastnosti buňky Biomasa Rychlost růstu buněk Molekulární vlastnosti Počty složek a jejich koncentrace Lokalizace Aktivita genů
Trénink modelu Observed doubling time Observed doubling time Cellular chemical composition Major cell mass fractions
Validace 1. Metabolic fluxes
Validace 2. Metabolite concentrations
Validace 3. Bursts of protein synthesis Caused by - intermittent mrna expression - availability of amino acids following protein degradation
Validace 4. Copy number distribution
Interakce proteinu s DNA Model has 30 DNA-binding proteins Chromosome explored v. quickly 50% of chromosome by 1 or more proteins within the first 6 mins 90% within 20 mins RNA polymerase binds 90% of chromosome within 49 mins 90% of genes are expressed within the first 143 minutes
DNA replikace
Tvorba proteinů Over 30,000 collisions occur per cell cycle Nearly 1 protein is displaced from chromosome per second Most collisions are caused by RNA polymerase (84%) and DNA polymerase (8%) Most commonly displaced proteins are: structural maintenance of chromosome (SMC) proteins (70%) and single-stranded binding proteins (6%)
Rychlost DNA replikace Initial rapid DNA replication Acts as a control on cell cycle duration Rate limited by available dntp (deoxyribonucleotide triphosphate)
Syntéza energetických molekul Mainly used in production of protein and mrna
Ztráty energie 44% discrepancy between synthesis and use of ATP and GTP
Knock-out simulace vypínání každého z 525 genů 284 genů esenciálních pro růst a dělení 117 genů neesenciálních Tj. bez nich buňka neprodukuje nějakou základní složku, nebo se zabrání dělení buňky
Knock-out studie Vypínání různých genů
Použití modelu Model odpovídá experimentálním datům K predikcím, co se stane když Zkoumáním rozdílů mezi modelem a experimentem můžeme odhalit, čemu ještě nerozumíme v biologii buňky Nicméně M genitalium je nejmenší buňka. A i tak je model velmi složitý, dalším krokem je pochopení E coli a to ještě chvíli potrvá
Jak si to zkusit taky? Občanská věda Poskytnutí zdrojů: Folding@Home http://folding.stanford.edu Rosetta@Home http://boinc.bakerlab.org A dokonce i hry: Foldit http://fold.it skládání proteinů EteRNA http://eterna.cmu.edu skládání RNA Phylo http://phylo.cs.mcgill.ca - porovnávání sekvencí