KFC/STBI Structural Bioinformatics Functions, Patterns, Properties and Challenges Karel Berka
What we can get from 3D structure?
Syllabus Výpočty vlastností ze struktur funkce (ProFunc, Gene3D) 3D motivy identifikace aktivního místa (QSiteFinder, Pocket Finder, SURFNET, ConSurf) analýza tunelů (CAVER, MOLE, MoleOnline) analýza mutability (Hotspot Wizard) Výzvy strukturní bioinformatiky analýza pohybů (Molmovdb, PMG) membránové proteiny (OPM) neuspořádanost (DISPRED) RNA (mfold)
Function
Function definition EC enzyme classification (4 levels of detail) Oxidoreductases (EC 1) substrate is a donor of hydrogen or electrons what substrate acceptor-type only enzymes 1 enzyme more functions methylenetetrahydrofolate dehydrogenase/cyclohydrolase (EC 1.5.1.5 and EC 3.5.4.9) GO - Gene Ontology genome annotation more generic Biological process generic (cell growth) specific (glycolysis) Molecular function generic (enzyme) specific (hexokinase) Cell compartmentalisation where it works (ER, cytosol) catalytic domain NADPH-binding domain
Function search - ProFunc http://www.ebi.ac.uk/thornton-srv/databases/profunc/
Gene3D genome annotation using CATH
Function search - possibilities Sequence below 40% identity is function less conserved (exception CYP) Fold matching structure alignment (DALI, FATCAT) against annotated structural db (CATH, SCOP) 3D motives active site position (TESS, PDBSiteScan, PatternQuery) Active sites geometric similarity (SURFNET) physical properties (SURF S UP!, SiteEngine)! same substrate can have multiple sites ATP
Function search possibilities II Phylogenetic analysis search for conserved residues by multiple alignement (ConSurf) DNA binding Helix-turn-helix motiv (HTHquery) Ligands similar sites as in other crystals in PDB (PDBsum, MSDsite) Channel anotation (MOLE)
3D motifs + Patterns
3D Motifs Sequence motif (1D motif) conserved sequence pattern, which can be correlated with function Structure motif (3D) conserved structural pattern, which can be correlated with function
Example: Aspartate proteases Sequence analysis show Asp,Thr,Gly in active site Structure search shows similar physicochemical properties (negative charge and geometry of the active site) June 2000, David Goodsell doi:10.2210/rcsb_pdb/mom_2000_6 Asp Asp HIV-1 protease The two chains assemble to form a long tunnel covered by two flexible protein "flaps." The flaps open up and the enzyme wraps around a protein chain, closing and holding it tightly in the tunnel. The active site is at the center of the tunnel, where a water molecule is used to break the protein chain on two Asp.
3D MOTIFS definition V 1D případě provedeme alignment sekvencí a vytvoříme pravděpodobnostní model pro danou aminokyselinu v daném místě Analogicky lze totéž provést pro strukturu. Určíme, jaká aminokyselina se vyskytuje v daném strukturním kontextu Aminokyseliny nemusí být nejvhodnější úroveň popisu (sekundární struktura může být lepší, je konzervovanější)
Možné deskriptory Typ atomu (C,N,O,H,S...) Typ funkční skupiny (OH,CH3,NH,C=O..) Typ aminokyseliny (Val,Tyr,Gly..) nabitá, polární, nepolární, aromatická... Typ sekundární struktury nebo obecně geometrického parametru Fyzikální parametry (mobilita, elektronegativita, náboj, hydrofobicita)
Sada struktur má více negativního náboje v místě kolem pozice x1,y1,z1, ale méně kladného náboje v okolí x2,y2,z2 nebo Příklad 3D motivů Sada struktur má výrazný nedostatek hydrofobních aminokyselin v této oblasti (x3,y3,z3) ale je bohatá na polární aminokyseliny, významně Ser v oblasti x4,y4,z4
Point correspondence Nutno definovat korespondující body v prostoru v dané sadě 1 point radial average 2 points cylindric average 3 points 2 hemispheres 4 points RMSD 1 2 4 4 1 1 3 2
příklad Radiální průměr
Pattern detection: Why?
Pattern detection: Approaches Software: OpenStructure, Protein segment finder, PatternQuery* *Sehnal, Pravda, Svobodová et al., Nucl. Acids Res. (2015)
Pattern detection example sugar binding site from Pseudomonas aeruginosa lectin Results (38 entries from PDB): Pseudomonas aeruginosa (27 entries) or its synthetic (2 entries) Burkholderia cenocepacia (4 entries) Ralstonia solanacearum (2 entries) Chromobacterium violaceum (2 entries) Bacillus subtilis (1 entry)
Hledání aktivního místa
Aktivní místo tvar a velikost velké (protein-protein, ev. protein-dna) PPI-PRED malé (záhyby, ligandy) na povrchu, ev. hluboko a spojené kanály SURFNET, PocketFinder, Q-SiteFinder fyz chem vlastnosti hydrofobic patches nabité povrchy konzervace residuí evolution trace method ConSurf kombinace metod meta searches
Hledání kapes SAS a SES solvent accessible surface solvent excluded surface hledání kapes Pocket-Finder na základě geometrie receptoru na řezu na 7 lininích v mřížce uzavřené body kavity částečně uzavřené kapsy (pockets) popisuje je jen, když je počet bodů vedle sebe > threshold QSiteFinder na gridu místa s výhodnými interakčními energiemi k probe představující generický ligand (methan)
Hledání cesty do aktivního místa tunely, kanály a póry
Channels detection important role in biomolecular function co-determine specificity
http://loschmidt.sci.muni.cz/caver/index.php Petrek, M. et al - CAVER: a new tool to explore routes from protein clefts, pockets and cavities, BMC Bioinformatics 2006, 7:316 Beneš, P. et al. - CAVER 2.1 software, 2010. Hledání tunelů Caver Dijkstrův algoritmus na vyhledání optimální cesty na gridu nověji na Voronoi mesh
Hledání tunelů MOLE Atoms maps => Voronoi diagram http://mole.chemi.muni.cz/online/current/ http://mole.upol.cz Petrek M., Kosinova P., Koca J., Otyepka M.: MOLE: A Voronoi Diagram-Based Explorer of Molecular Channels, Pores, and Tunnels. Structure (2007) 15, 1357-1363.
Channel detection: MOLE 2.0 * Sehnal, Svobodová, et al., J. Cheminf. (2013) ** Berka,..., Svobodová, et al., Nucl. Acids Res. (2012)
Channel detection example Cytochrome P450 3A4 - channel analysis via MOLE: Results: Channels from active site: the solvent channel (in blue) product egress the channel 2a (in dark red) and 2e (in light red), involved in hydrophobic substrate binding
Anatomy of Channels Methodology: Analysis of all the enzyme structures from PDB (4.306 structures) Calculation of their properties via MOLE Statistical analysis
Anatomy of Channels Results*: 64% of enzymes have at least one channel Median channel length was 27.7 Å Most of the channels are polar An average channel is lined by 2 negative and 2 positive AAs gating AAs enriched: Pravda, Berka,... et al., BMC Bioinf. (2015)
Hledání mutability Hotspot Wizard hledání aktivních míst pro případné enzymové inženýrství metaserver http://loschmidt.chemi.muni.cz/hotspotwizard
Analýza pohybů
Time scale of biochemical processes
Analýza pohybů MolMovDB Flexibility and Geometric Analysis PMG Protein Movie Generator
Výzvy membránové proteiny protein-protein interakce disorder NA
Membránové proteiny Buněčná membrána lipidická dvojvrstva + proteiny Buněčná stěna rigidní vrstva vně buněčné membrány chránící buňku Vnější membrána další membrána mitochondrie, chloroplasty, Gram-negativní bakterie Membrane core hydrofobní část membrány Membrane interface polární oblasti u povrchu membrány Rovina x Osa membrány Membránové proteiny Topologie počet TM sekundárních struktur lokalizace N-terminálního konce (IN x OUT) re-entrant loops (neprojdou skrz membránu) Positive inside rule Arg a Lys jsou až 4x častější v cytosolu oproti periplasmě Lily-pad effect interakce s jádrem membrány častější aromatické residua Tyr, Trp
Membránové proteiny málo proteinů v PDB skutečně v membráně (300 v MPDB.org) (doména EM), většinou solubilizované (10000 v PDB) extrémně zajímavé jako receptory pro léčiva (GPCRs) predikce membránových částí ze sekvence (TMpred) predikce struktury málokdy (Swiss-Model-7TM)
Zanoření v membránách OPM server protein = rigid body optimalizace v anisotropickém implicitním modelu membrány fotosystém II http://opm.phar.umich.edu
Hledání protein-protein interakcí bouřlivě se rozvíjející oblast hledání léčiv blokujících interakce založená hlavně na evolučních analýzách sekvencí a porovnávání dat ze známých komplexů a dalších experimentů na pomezí systémové biologie STRING DB interakce mezi proteiny http://string-db.org
Disorder neviditelný nejsou k němu strukturní data odhady teplotní B-faktor v Xray, NMR ensemble, DISOPRED intristically disordered proteins nepotřebují strukturu k tomu, aby fungovali často regulační funkce molecular recognition (promiskuitní) molecular assembly (virální kapsidy) protein modification entropic chain activities (pružiny, entropické hodinky)
Nukleové kyseliny aneb na co se v mezičase nedostalo
RNA world RNA/DNA hypotéza prvotního RNA světa Rfam 10.0 http://www.imb-jena.de/rna.html collection of RNA families multiple sequence alignments, consensus secondary structures and covariance models (CMs) RNA hairpin DNA šroubovice
Terminologie RNA struktura
dotplot
Způsoby RNA predikce Naivní (stemloop) Zuker algoritmus s pseudoknoty s suboptimálními řešeními http://rna.tbi.univie.ac.at/cgi-bin/rnafold.cgi http://mfold.rna.albany.edu/?q=mfold/rna-folding-form
Naivní (STEMLOOP) 1. Calculates score over a window 2. Finds stems over a threshold score 3. Minimum/maximum loopsize 4. Sort by position or score + Shows all stems not just lowest energy - Energetics are very crude - No bulges or bubbles - Complex optimization problem
RNA energetika RNA je dynamická, hodně struktur s podobnou energií citlivé na podmínky (sůl, teplota, proteiny) pseudoknots biologická struktura nemusí být ta nejnižší, ale musí být jedna z hlavních hodně napoví fylogenetická analýza ΔG = ΔGstack + ΔGbulge + ΔGhairpin +ΔGinternal+ ΔGmultibranch ΔGstack je energie párování a stakování ve stemech, vše ostatní je pro loopy Jen ΔGstack stabilizuje sekundární strukturu, ostatní ji destabilizují
RNA energetika stacking (kcal/mol) Tetraloops Exceptionally common 4 base long loops >60% of loops in rrna are AUUU CUUG GAAA GAGA GCAA GCGA GGAA GUGA GUAA UACG UCCG UUCG UUUA Clearly more stable but exact energy unknown Zuker gives -2 kcal/mol
Calculation proceeds from center towards edges Includes stacking, bulge,internal, and hairpin loop terms Start from center because the center line is location of hairpin loops Zuker algoritmus
mfold nearest neighbor energy rule: free energies are assigned to loops rather than to base pairs. These have also been called loop dependent energy rules. A secondary structure, S on an RNA sequence,r=r 1,r 2,r 3,...r n, is a set of base pairs. A base pair between nucleotides r i and r j (i<j) is denoted by i.j. A few constraints are imposed. Two base pairs, i.j and i'.j' are either identical, or else i i, and j j. Thus base triples are deliberately excluded from the definition of secondary structure. Sharp U-turns are prohibited. A U-turn, called a hairpin loop, must contain at least 3 bases. Pseudoknots are prohibited. That is, if i.j and i,j S, then, assuming i < i', either i < i' < j' < j or i < j < i' < j'. http://mfold.rna.albany.edu/?q=mfold/rna-folding-form
EXAMPLE 1 The energy dot plot is an integral part of the folding prediction. Consider the folding of a short RNA sequence: AAGGGGUUGG UCGCCUCGAC UAAGCGGCUU GGAAUUCC The energy dot plot for the ``Example 1'' sequence. Surrounding annotation, which would not be legible at this scale, has been removed. The yellow dots indicate base pairs in foldings within 0.3 kcal/mole of the optimal folding free energy of -9.8 kcal/mole
The 2 predicted foldings for the ``Example 1'' sequence. (a)the optimal folding with DG = -9.8kcal/mole. (b)(b) The suboptimal fold (DG = -9.5kcal/mole) found (c)after refolding with `W'=0.
mfold RNA secondary structure with suboptimal folding Display results as mountains, domes, circles, squiggles Zuker s web site (includes server) http://bioinfo.math.rpi.edu/~zukerm/rna/ Calculate energies for specified structure (efn server) ssdna structure prediction
Eterna predikce stabilní 2D struktury RNA