KFC/STBI Strukturní bioinformatika

Podobné dokumenty
Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Bioinformatika pro PrfUK 2003

Služby pro predikci struktury proteinů. Josef Pihera

P ro te i n o vé d a ta b á ze

OPVK CZ.1.07/2.2.00/

Úvod do molekulové dynamiky simulace proteinů. Eva Fadrná

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Strukturní biologie. Vojtěch Spiwok.

Studium enzymatické reakce metodami výpočetní chemie

Struktura biomakromolekul

Molekulární dynamika vody a alkoholů

Struktura biomakromolekul

WEBOVÝ SERVER PRO PREDIKCI 3D STRUKTURY PROTEINU

Využití metod strojového učení v bioinformatice David Hoksza

KFC/STBI Strukturní bioinformatika

Struktura a funkce biomakromolekul

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

Configuration vs. Conformation. Configuration: Covalent bonds must be broken. Two kinds of isomers to consider

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Neideální plyny. Z e dr dr dr. Integrace přes hybnosti. Neideální chování

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

BIOINFORMATICKÝ NÁSTROJ PRO PREDIKCI STRUKTURY PROTEINŮ BIOINFORMATICS TOOL FOR PROTEIN STRUCTURE PREDICTION

Využití strojového učení k identifikaci protein-ligand aktivních míst

Blok 2 Sekundární struktura proteinů

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

KFC/STBI Strukturní bioinformatika

KFC/STBI Strukturní bioinformatika

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Enzymové pexeso. L: lactose P: operon

Compression of a Dictionary

Počítačové simulace a statistická mechanika

Využití NMR spektroskopie pro studium biomakromolekul RCSB PDB

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

PC/104, PC/104-Plus. 196 ept GmbH I Tel. +49 (0) / I Fax +49 (0) / I I

UŽIVATELSKÁ PŘÍRUČKA

F1190: Proteiny. Reforma a rozvoj výuky Biofyziky pro potřeby 21. století. Číslo výzvy: IPo - Oblast 2.2 (výzva 15)

Univerzita Karlova v Praze Přírodovědecká fakulta

Zpracování informací a vizualizace v chemii (C2150) 1. Úvod, databáze molekul

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Počítačová chemie. výpočetně náročné simulace chemických a biomolekulárních systémů. Zora Střelcová

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Uni- and multi-dimensional parametric tests for comparison of sample results

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Dynamic programming. Optimal binary search tree

Objemové ultrajemnozrnné materiály. Miloš Janeček Katedra fyziky materiálů, MFF UK

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA

Aktivita CLIL Chemie III.

Strukturní bioinformatika KFC/STBI

Lekce 9 Metoda Molekulární dynamiky III. Technologie

Princip metody Transport částic Monte Carlo v praxi. Metoda Monte Carlo. pro transport částic. Václav Hanus. Koncepce informatické fyziky, FJFI ČVUT

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

STUDIUM ELEKTROCHEMICKÝCH KOROZNÍCH JEVŮ DVOUFÁZOVÝCH OCELÍ ZA POUŽITÍ METODY SRET.

NMR biomakromolekul RCSB PDB. Progr. NMR

Obrábění robotem se zpětnovazební tuhostí

ANALÝZA NÁSTROJŮ PRO ZJIŠŤOVÁNÍ PODOBNOSTI TERCIÁRNÍCH STRUKTUR PROTEINŮ

Atom vodíku. Nejjednodušší soustava: p + e Řešitelná exaktně. Kulová symetrie. Potenciální energie mezi p + e. e =

Global Properties of A-A Collisions II

Úvod do GIS. Prostorová data I. část. Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium.

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Masarykova univerzita

2. Entity, Architecture, Process

Má tajemný clusterin u dětí v septickém stavu aktivitu chaperonu? J. Žurek, P.Košut, M. Fedora

Transportation Problem

Jakub Zavodny (University of Oxford, UK)

Ing. Pavel Staša, doc. Dr. Ing. Vladimír Kebo, Vladimír Strakoš V 2

kupi.cz Michal Mikuš

Aplikovaná bioinformatika

ACOUSTIC EMISSION SIGNAL USED FOR EVALUATION OF FAILURES FROM SCRATCH INDENTATION

VYUŽITÍ DATA DRIVEN PAGES

Laboratorní mostový jeřáb. The Laboratory Overhead Crane 2012 FUNKČNÍ VZOREK. Název funkčního vzorku v originále. Název funkčního vzorku anglicky

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

MODELOVÁNÍ A MĚŘENÍ DEFORMACE V TAHOKOVU

OPVK CZ.1.07/2.2.00/

PLOCHA POTENCIÁLNÍ ENERGIE

Koncept stroje. Jak rozhýbat náčrtek stroje. unrestricted Siemens AG 2018

KULOVÝ STEREOTEPLOMĚR NOVÝ přístroj pro měření a hodnocení NEROVNOMĚRNÉ TEPELNÉ ZÁTĚŽE

Typizace amyloidóz pomocí laserové mikrodisekce a hmotnostní spektrometrie

LED STANDARD 12V GU4, GU5.3, G53

Monte Carlo, genetické algoritmy, neuronové sítě

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Karta předmětu prezenční studium

Whatever you frame. výška / high. šířka / width

Introduction to MS Dynamics NAV

Markovovy modely v Bioinformatice

IT4Innovations Centre of Excellence

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Fyzika atomového jádra

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Rozvoj vzdělávání žáků karvinských základních škol v oblasti cizích jazyků Registrační číslo projektu: CZ.1.07/1.1.07/

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

LOGOMANUÁL / LOGOMANUAL

Fázové přechody Isingův model

Analýza Realizace případů užití

(

Lekce 4 Statistická termodynamika

EXACT DS OFFICE. The best lens for office work

Transkript:

KFC/STBI Strukturní bioinformatika 06_predikce struktury Karel Berka 1

Predikce minule jsme se snažili najít způsob, jak spolu budou interagovat malé molekuly a proteiny. Ale co dělat, když strukturu proteinu nemame? 2

Strukturní alignment Predikce struktury Homologní modelování SwissMODEL threading Modeller, I-TASSER de novo modelování Robbeta, Quark molekulární mechanika Syllabus skládání proteinů (protein folding) Folding@Home, FoldIt 3

Strukturní alignment

Jak lze rozeznat strukturní podobnost? Podle oka Algoritmicky: Strukturní alignment Structural alignment of thioredoxins from humans (red) and Drosophila (yellow) PDBID: 3TRX and 1XWC. 5

Strukturní alignment Pro daný pár molekulárních struktur nalézt korespondenci mezi souřadnicemi atomů, jež povede k nejlepšímu srovnání (alignmentu) Nejlepší znamená ve smyslu nejmenší RMSD Nevýhody: alignment pro několik atomů vynikající pro zbytek nevyhovující 6

Strukturní alignment Nutno zohlednit: Počet odpovídajících si aminokyselin RMSD těchto aminokyselin Procento identity v aligned residues Počet vnesených gaps Velikost těchto dvou proteinů Místa s konzervovanou sekvencí Nejsou žádná universální kriteria. Vše závisí na cíli. 7

Strukturní alignment Upozornění Jedná se o jiný druh problému než při určení RMSD dvou proteinů při dané korespondenci atomů V tomto případě nevíme které atomy porovnávat s kterými. Z toho důvodu je nutno podniknout analýzu všech možných korespondencí RMSD se užívá jako nástroj k určení korespondence 8

Proč dělat strukturní alignment Struktura se většinou zachovává více než sekvence 1. Homologní proteiny (podobný předek) zlatý standard pro sekvenční alignment 2. Nehomologní proteiny určení obecné či příbuzné substruktury (domén) 1. Klasifikace proteinů do klastrů založených na strukturní podobnosti (CASP, SCOP) 9

Typy strukturního alignmentu bodové metody vlastnosti bodů či vzdáleností k určení korespondencí CE rigidní struktura, hledání největší skupiny sekvenčně řazených ekvivalentních atomů DALI (Holm, Sander) matice vzdáleností pro nalezení podobných vzorků naznačujícím korespondenci bez ohledu na sekvenci metody založené na sekundární struktuře vektorová reprezentaci ss k určení korespondence VAST alignment sekundárních struktur FATCAT protein není rigidní, hinges (klouby) se mohou hýbat 10

CE (Combinatorial Extension) z párů proteinových segmentů typicky po 8 AA porovnání na základě lokální geometrie posléze se páry alignmentu rozšiřují, dokud to jde výsledky: RMSD z-statistika (standard) z-score is where: x is a raw score to be standardized; µ is the mean of the population; σ is the standard deviation of the populati 11

Predikce struktury

Predikce terciárních struktur proteinů Predikce struktury vycházející ze známých stabilních struktur Homologní modelování SwissMODEL, I-TASSER threading Modeller, vycházející z fyzikálních modelů de novo modelování (ab initio) Quark, Robbeta, molekulární mechanika skládání proteinů (protein folding) Folding@Home, FoldIt 13

Homologní modelování také komparativní, nebo knowledge-based modelování strukturu neznámého proteinu sestaví na základě znalosti struktury homologního proteinu Swiss-MODEL http://spdbv.vital-it.ch/modeling_tut.html 14

Obecný protokol vybrat protein k modelování hledání homologů ne ab initio, ev. threading ano Clustal W alignment modelování centrálního regionu (analýza očima odpovídá to experimentu?) if ano modelování loopů (hledání fragmentů modelování vedlejších řetězců (rotamery) minimalizace (molekulové modelování, dynamika) stereochemická kontrola modelu (PROCHECK, Ramachandran plot) 15

Princip funkce Swiss-MODEL http://www.expasy.org/spdbv/ identifikace strukturního templátu sekvenční alignment cílové sekvence s templátem model building přeložení AA v templátu aminokyselinami z cílové sekvence evaluace kvality modelu skórovací funkce A to lze opakovat, dokud nejsme spokojeni. 16

Kdy použít Homologní modelování pokud je podobnost mezi sekvencí templátu a cílové sekvence dostatečně vysoká alespoň 30% IDENTITY 17

Threading nebo také fold recognition není zapotřebí homologní struktura místo toho se snaží modelovat na známé foldy a snaží se zjistit, který z nich je nejlepší Modeller http://salilab.org/modeller/ 18

Protein threading Sestavení databáze strukturních templátů This generally involves selecting protein structures from databases such as PDB, FSSP, SCOP, or CATH, after removing protein structures with high sequence similarities. Sestavení skórovací funkce measure the fitness between target sequences and templates based on the knowledge of the known relationships between the structures and the sequences. A good scoring function should contain mutation potential, environment fitness potential, pairwise potential, secondary structure compatibilities, and gap penalties. The quality of the energy function is closely related to the prediction accuracy, especially the alignment accuracy. Threading alignment Align the target sequence with each of the structure templates by optimizing the designed scoring function. solving the optimal alignment problem derived from a scoring function considering pairwise contacts. Threading predikce statistically most probable alignment => threading prediction construct a structure model for the target by placing the backbone atoms of the target sequence at their aligned backbone positions of the selected structural 19 template.

threading function energetická závislost vložení aminokyseliny na specifické místo funkce je vlastně preferencí dotyčné AA pro specifické místo 20

threading function Boltzmannův vztah w ij energie ρ ij (r) sledovaná hustota kontaktu ρ - referenční hustota při separaci Fenomenologický potenciál 1 e ij n = A ln n ij io n n oo jo [1] Miyazawa, S. & Jernigan, R.L. PROTEINS,1999, (36)357 369 21

Modeller homologní modelování s constraints (např. NMR, EM, apod) používá tzv. i-sites (krátké kousky, pro které zná strukturu) http://salilab.org/modeller/ Comparative protein modelling by satisfaction of spatial restraints. Šali A, Blundell TL. J Mol Biol. 1993 Dec 5;234(3):779-815. 22

Kdy použít threading? Pokud nemám dost sekvenční identity k jednomu templátu nejlépe po jednotlivých doménách nejlépe zkusit několik programů a porovnat, který fold je nejčastější konsensus použít další znalosti o proteinu (funkce) opět to může napomoct vybrat správný fold. 23

Ab initio modeling ab initio = bez předchozích znalostí (templátu) masivní hledání správné konformace a k tomu fyzikální (pseudo-fyzikální) energetická funkce na popis volné energie http://robetta.bakerlab.org/ ab initio and comparative models of protein domains Nejméně přesné ale jediné použitelné, pokud neznám templát 24

Molekulová mechanika celková energie je funkcí vzájemné pozice atomů ( ) E E E E E b a t c vdw E = f R = + + + + 25

Silová pole (Force-field) E b = kr 2 ( r r ) 2 0 E t = k ( ) θ E θ θ 2 a 0 2 k ( 1 cos( φ φ ) θ + = n 2 1 qi q Ec = 4πε 0 ε r r ij j 0 E vdw = 2ε ij r r * ij ij 6 r + ε ij r * ij ij 26 12

Konformace Povrch potenciální energie (PES) bariéry, minima globální vz. lokální Pohyb po PES v proteinech folding funnel metody: optimalizace energie molekulární dynamika simulované žíhání Monte Carlo 27

Použití MM v principu by měla jít použít na hledání globálního minima (všechny konformace a oskórování) protein folding příliš náročné na výpočetní prostředky, používá se pouze u malých proteinů ke studiu např. kinetiky skládání, apod. případně k rafinaci modelu získaného homologním modelováním 28

Kontrola kvality CASP

CASP Critical Assessment of Techniques for Protein Structure Prediction Comparison with prepublished x-ray data no prior information for predictors (double-blind) CASP10 will be public at 12/1/2013 http://predictioncenter.org/casp9/index.cgi Proteins: Structure, Function, and Bioinformatics Volume 77, Issue S9, Pages 1-228 (2009) 30

CASP tertiary structure prediction (all CASPs) secondary structure prediction (dropped after CASP5) prediction of structure complexes (CASP2 only; a separate experiment - CAPRI - carries on this subject) residue-residue contact prediction (starting CASP4) disordered regions prediction (starting CASP5) domain boundary prediction (CASP6-CASP8) function prediction (starting CASP6) model quality assessment (starting CASP7) model refinement (starting CASP7) high-accuracy template-based prediction (starting CASP7) 31

Template based I-Tasser Ab Initio QUARK Best results oboje Zhang Lab University of Michigan http://zhanglab.ccmb.med.umich.edu 32

I-TASSER Best automated server for prediction of 3D structure http://zhanglab.ccmb.med.umich.edu/i-tasser/ 33

I-TASSER 1. LOMETS metaserver pro 8 metod predikce terciarni struktury fragmentu 2. složení fragmentů z identifikovaných templátů replica-exchange Monte Carlo simulace threading nepřeložených regionů (loops) pomocí ab initio modeling 3. SPICKER clustrovani nejlepsich vysledku 4. znovu LOMETS dle clusteru 5. TM-align 34

energy terms contact_cut.comm: Residue contact cutoff parameters contact_profile.comm: Side-chain contacts environment profile contact3.comm: Orientation-dependent side-chain contact potential CA13.comm: Short-range C-alpha correlation of (i,i+2) CA14.comm: Short-range C-alpha correlation of (i,i+3) CA15.comm: Short-range C-alpha correlation of (i,i+4) CA14s.comm: Short-range C-alpha correlation of (i,i+3) for strands CA14h.comm: Short-range C-alpha correlation of (i,i+3) for helices CA15s.comm: Short-range C-alpha correlation of (i,i+4) for strands CA15h.comm: Short-range C-alpha correlation of (i,i+4) for helices CB.comm: C-beta positions sidechain.comm: Sidechain center positions 35

Quark ab initio protein folding and protein structure prediction construct correct protein 3D model from amino acid sequence only. QUARK models are built from a small fragments (1-20 residues long) by replica-exchange Monte Carlo simulation under the guide of an atomic-level knowledgebased force field. Since no global template information is used in QUARK simulation, the server is suitable for proteins which are considered without homologous templates. http://zhanglab.ccmb.med.umich.edu/quark/ D. Xu, Y. Zhang, Ab Initio Protein Structure Prediction using QUARK: II. Algorithm Flow and Benchmark Result 36

And now something completely different...

FoldIt skládání proteinů jako hra http://fold.it/portal/ 38