Bioinformatika a výpočetní biologie KFC/BIN I. Přehled RNDr. Karel Berka, Ph.D. Univerzita Palackého v Olomouci
Definice bioinformatiky (Molecular) bio informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of physical chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the data and information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications. Oxford English Dictionary
Definice bioinformatiky spojení biologických věd s informatikou počítačové zpracování, organizace, ukládání a vizualizalizace biologických dat a jejich aplikace iteulike oblak klíčových slov pro bioinformatics
Přehled témat bioinformatiky hledání genů a skládání genomů porovnávání sekvencí (alignment) analýza a predikce struktury proteinů a NA hledání léčiv (drug design a discovery) predikce a analýza interakcí mezi proteiny predikce genové exprese modelování molekulární evoluce Wikipedia
Organizace biologických informací biologické informace redundantní a mnohonásobné Genetický kód je redundantní Organismus má mnoho podobných genů Gen může mít více funkcí Rozdílné proteinové sekvence mají stejnou strukturu
Příklad systému - kolo
Kolo Jak jsou redundantní? Jak jsou flexibilní? Které části jsou sdílené (šroubky, matky, podložky, pružiny, ložiska), nebo unikátní (šlapátka, páčky)? Kde se jednotlivé části nachází? Jakou mají funkci? Dokážeme je vylepšit?
Biologická data Zdroj dat Velikost dat Bioinformatika DNA sekvence Proteinová sekvence Makromolekulární struktura Genomy Exprese (genů, proteinů, ) 195 milionů sekvencí (300 10 9 nukleotidů) 18 milionů sekvencí (~300 AA) 70 000 struktur (~1500 koordinát) 1000 genomů (~1 10 9 bp) čipy (obrazové info:tb/den) Introny a exony Predikce produktu genů Forenzní analýza Porovnávání sekvencí (párové, 1:n) Konzervované sekvenční motivy Predikce sekundární a terciární struktury 3D strukturní alignment Geometrie molekuly a její interakce Molekulární simulace (MD, ligand docking) Charakterizace opakování Dohledávání struktur ke genům Fylogenetická analýza Genomic-scale census (obsah proteinů, metabolické dráhy) Identifikace genetických chorob Mapování expresních dat na sekvenční a biochemické data Biol. literatura 20 milionů citací Hledání, digitální knihovny Tvorba znalostních databází data mining
Bioinformatika - přístup experimentální data (biologové) strukturovaná data (databáze) hypotézy počítačový program (programátoři)
hrubá data sekvence Prostor působení příprava alignment geny struktura funkce hledání genů předpověď 3D struktury databáze organizace metabolismus metabolismus (biologie) fylogenetická analýza
Ideální případ
Počítačové zpracování Databáze ukládání, hledání Analýza textu sekvenční analýzy, porovnávání sekvencí, hledání klíčových slov Hledání motivů Neuronové sítě, clusterová analýza, data mining, Markovovské řetězce Geometrie 3D grafika, robotika, 2D/3D rozpoznávání obrazu Fyzikální simulace Mechanika, elektrostatika, numerické algoritmy, simulace
Přehled témat bioinformatiky hledání genů a skládání genomů porovnávání sekvencí (alignment) analýza a predikce struktury proteinů a NA hledání léčiv (drug design a discovery) predikce a analýza interakcí mezi proteiny predikce genové exprese modelování molekulární evoluce Wikipedia
Genom Hledání genů introny, exony, promotory, cizí kusy DNA Charakteristika opakujících se kusů DNA forenzní analýza Hledání duplicit v genomu
Velikosti genomů Mycoplasma genitalium Escherichia coli Saccharomyces cerevisiae 16 chr. 0.58 Mbp 4.6 Mbp 11.2 Mbp Caenorhabtitis elegans 6 chr. 97.0 Mbp Arabidopsis thaliana 5 chr. 115.4 Mbp Drosophila melanogaster 5 chr. ~137.0 Mbp Homo sapiens 24 chr. ~ 3.3 Gbp
Analýza sekvencí Porovnávání sekvencí 1:1 1:n lokální nebo globální porovnání hledání konsensní sekvence pro třídu proteinů mapování evoluce Hledání vlastností sekundární struktura hydrofobicita transmembránové segmenty
Predikce proteinové struktury Terciární struktura rozpoznání foldu homologní modelování strukturní alignment ab initio modelování Predikce funkce hledání aktivních míst a kanálů
Strukturní výpočetní biologie Molekulární grafika vodítko pro hypotézy Simulace Struktura => Energie vývoj v čase Docking hledání jak a kam se látky váží ligandy proteiny mezi sebou Helikáza rozevírající DNA docking do acetyltransferázy v programu GOLD
Analýza obrazu s vysokou propustností Analýza genové exprese Analýza proteinové exprese Funkční a toxikologické analýzy
Modelování biologických systémů matematická biologie e-cell
Sledování molekulární evoluce Fylogenetické stromy hledání společného předka podle podobnosti - změna probíhá v liniích časem - dělení po dvojicích
Souhrn