KFC/STBI Structural Bioinformatics

Podobné dokumenty
KFC/STBI Strukturní bioinformatika

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Configuration vs. Conformation. Configuration: Covalent bonds must be broken. Two kinds of isomers to consider

Bioinformatika pro PrfUK 2003

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

2. Entity, Architecture, Process

KFC/STBI Strukturní bioinformatika

Dynamic programming. Optimal binary search tree

PAINTING SCHEMES CATALOGUE 2012

Compression of a Dictionary

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Aktivita CLIL Chemie I.

KFC/STBI Strukturní bioinformatika

Transportation Problem

LOGBOOK. Blahopřejeme, našli jste to! Nezapomeňte. Prosím vyvarujte se downtrade

Využití metod strojového učení v bioinformatice David Hoksza

Struktura biomakromolekul

KFC/STBI Strukturní bioinformatika

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Zubní pasty v pozměněném složení a novém designu

Introduction to MS Dynamics NAV

LOGOMANUÁL / LOGOMANUAL

MOLEKULOVÉ MODELOVÁNÍ - STRUKTURA. Monika Pěntáková Katedra Farmaceutické chemie

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Struktura a funkce biomakromolekul

Mechanika Teplice, výrobní družstvo, závod Děčín TACHOGRAFY. Číslo Servisní Informace Mechanika:

Angličtina v matematických softwarech 2 Vypracovala: Mgr. Bronislava Kreuzingerová

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Má tajemný clusterin u dětí v septickém stavu aktivitu chaperonu? J. Žurek, P.Košut, M. Fedora

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Litosil - application

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Počítačové kognitivní technologie ve výuce geometrie

CODE BOOK NEISS 8. A code book is an identification tool that allows the customer to perform a test result evaluation using a numeric code.

P ro te i n o vé d a ta b á ze

Jak importovat profily do Cura (Windows a

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

DC circuits with a single source

Inovace bakalářského studijního oboru Aplikovaná chemie

(molekulární) biologie buňky

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

CHAIN TRANSMISSIONS AND WHEELS

Laboratoř na čipu. Lab-on-a-chip. Pavel Matějka

Blok 2 Sekundární struktura proteinů

Využití strojového učení k identifikaci protein-ligand aktivních míst

MO-ME-N-T MOderní MEtody s Novými Technologiemi CZ.1.07/1.5.00/

CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA

ACOUSTIC EMISSION SIGNAL USED FOR EVALUATION OF FAILURES FROM SCRATCH INDENTATION

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

Právní formy podnikání v ČR

Unit 3 Stereochemistry

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

CZ.1.07/1.5.00/

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Úvod do molekulové dynamiky simulace proteinů. Eva Fadrná

CZ.1.07/1.5.00/

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

RYBÁŘSKÉ ŘETĚZY FISHING CHAINS

Problematika ozvučování zohledňuje tyto disciplíny:

CZ.1.07/1.5.00/

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

Automatika na dávkování chemie automatic dosing

Téma 8. Náklady kapitálu. Kapitálová struktura a její optimalizace

Výukový materiál zpracován v rámci projektu EU peníze školám

MODELOVÁNÍ A MĚŘENÍ DEFORMACE V TAHOKOVU

Obrábění robotem se zpětnovazební tuhostí

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL

Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

PŘENOS SIGNÁLU DO BUŇKY, MEMBRÁNOVÉ RECEPTORY

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Student: Draw: Convex angle Non-convex angle

WORKSHEET 1: LINEAR EQUATION 1

Postup objednávky Microsoft Action Pack Subscription

Eurogranites 2015 Variscan Plutons of the Bohemian Massif

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Výukový materiál zpracován v rámci projektu EU peníze školám

PAINTING SCHEMES CATALOGUE 2007

RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze

Vánoční sety Christmas sets

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

FIRE INVESTIGATION. Střední průmyslová škola Hranice. Mgr. Radka Vorlová. 19_Fire investigation CZ.1.07/1.5.00/

F1190: Proteiny. Reforma a rozvoj výuky Biofyziky pro potřeby 21. století. Číslo výzvy: IPo - Oblast 2.2 (výzva 15)

Transect analysis of reconstructed georelief of the Lake Most area in the years 1938, 1953, 1972, 1982 and 2008

Struktura biomakromolekul

Database systems. Normal forms

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

M-LOCK Magnetický zámek pro křídlové sklněné dveře. M-LOCK Magnetic lock for glass swing doors

Kapitoly z fyzikální chemie KFC/KFCH. V. Teoretická chemie

Karta předmětu prezenční studium

Metody používané v MB. analýza proteinů, nukleových kyselin

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Transkript:

KFC/STBI Structural Bioinformatics Functions, Patterns, Properties and Challenges Karel Berka

What we can get from 3D structure?

Syllabus Výpočty vlastností ze struktur funkce (ProFunc, Gene3D) 3D motivy identifikace aktivního místa (QSiteFinder, Pocket Finder, SURFNET, ConSurf) analýza tunelů (CAVER, MOLE, MoleOnline) analýza mutability (Hotspot Wizard) Výzvy strukturní bioinformatiky analýza pohybů (Molmovdb, PMG) membránové proteiny (OPM) neuspořádanost (DISPRED) RNA (mfold)

Function

Function definition EC enzyme classification (4 levels of detail) Oxidoreductases (EC 1) substrate is a donor of hydrogen or electrons what substrate acceptor-type only enzymes 1 enzyme more functions methylenetetrahydrofolate dehydrogenase/cyclohydrolase (EC 1.5.1.5 and EC 3.5.4.9) GO - Gene Ontology genome annotation more generic Biological process generic (cell growth) specific (glycolysis) Molecular function generic (enzyme) specific (hexokinase) Cell compartmentalisation where it works (ER, cytosol) catalytic domain NADPH-binding domain

Function search - ProFunc http://www.ebi.ac.uk/thornton-srv/databases/profunc/

Gene3D genome annotation using CATH

Function search - possibilities Sequence below 40% identity is function less conserved (exception CYP) Fold matching structure alignment (DALI, FATCAT) against annotated structural db (CATH, SCOP) 3D motives active site position (TESS, PDBSiteScan, PatternQuery) Active sites geometric similarity (SURFNET) physical properties (SURF S UP!, SiteEngine)! same substrate can have multiple sites ATP

Function search possibilities II Phylogenetic analysis search for conserved residues by multiple alignement (ConSurf) DNA binding Helix-turn-helix motiv (HTHquery) Ligands similar sites as in other crystals in PDB (PDBsum, MSDsite) Channel anotation (MOLE)

3D motifs + Patterns

3D Motifs Sequence motif (1D motif) conserved sequence pattern, which can be correlated with function Structure motif (3D) conserved structural pattern, which can be correlated with function

Example: Aspartate proteases Sequence analysis show Asp,Thr,Gly in active site Structure search shows similar physicochemical properties (negative charge and geometry of the active site) June 2000, David Goodsell doi:10.2210/rcsb_pdb/mom_2000_6 Asp Asp HIV-1 protease The two chains assemble to form a long tunnel covered by two flexible protein "flaps." The flaps open up and the enzyme wraps around a protein chain, closing and holding it tightly in the tunnel. The active site is at the center of the tunnel, where a water molecule is used to break the protein chain on two Asp.

3D MOTIFS definition V 1D případě provedeme alignment sekvencí a vytvoříme pravděpodobnostní model pro danou aminokyselinu v daném místě Analogicky lze totéž provést pro strukturu. Určíme, jaká aminokyselina se vyskytuje v daném strukturním kontextu Aminokyseliny nemusí být nejvhodnější úroveň popisu (sekundární struktura může být lepší, je konzervovanější)

Možné deskriptory Typ atomu (C,N,O,H,S...) Typ funkční skupiny (OH,CH3,NH,C=O..) Typ aminokyseliny (Val,Tyr,Gly..) nabitá, polární, nepolární, aromatická... Typ sekundární struktury nebo obecně geometrického parametru Fyzikální parametry (mobilita, elektronegativita, náboj, hydrofobicita)

Sada struktur má více negativního náboje v místě kolem pozice x1,y1,z1, ale méně kladného náboje v okolí x2,y2,z2 nebo Příklad 3D motivů Sada struktur má výrazný nedostatek hydrofobních aminokyselin v této oblasti (x3,y3,z3) ale je bohatá na polární aminokyseliny, významně Ser v oblasti x4,y4,z4

Point correspondence Nutno definovat korespondující body v prostoru v dané sadě 1 point radial average 2 points cylindric average 3 points 2 hemispheres 4 points RMSD 1 2 4 4 1 1 3 2

příklad Radiální průměr

Pattern detection: Why?

Pattern detection: Approaches Software: OpenStructure, Protein segment finder, PatternQuery* *Sehnal, Pravda, Svobodová et al., Nucl. Acids Res. (2015)

Pattern detection example sugar binding site from Pseudomonas aeruginosa lectin Results (38 entries from PDB): Pseudomonas aeruginosa (27 entries) or its synthetic (2 entries) Burkholderia cenocepacia (4 entries) Ralstonia solanacearum (2 entries) Chromobacterium violaceum (2 entries) Bacillus subtilis (1 entry)

Hledání aktivního místa

Aktivní místo tvar a velikost velké (protein-protein, ev. protein-dna) PPI-PRED malé (záhyby, ligandy) na povrchu, ev. hluboko a spojené kanály SURFNET, PocketFinder, Q-SiteFinder fyz chem vlastnosti hydrofobic patches nabité povrchy konzervace residuí evolution trace method ConSurf kombinace metod meta searches

Hledání kapes SAS a SES solvent accessible surface solvent excluded surface hledání kapes Pocket-Finder na základě geometrie receptoru na řezu na 7 lininích v mřížce uzavřené body kavity částečně uzavřené kapsy (pockets) popisuje je jen, když je počet bodů vedle sebe > threshold QSiteFinder na gridu místa s výhodnými interakčními energiemi k probe představující generický ligand (methan)

Hledání cesty do aktivního místa tunely, kanály a póry

Channels detection important role in biomolecular function co-determine specificity

http://loschmidt.sci.muni.cz/caver/index.php Petrek, M. et al - CAVER: a new tool to explore routes from protein clefts, pockets and cavities, BMC Bioinformatics 2006, 7:316 Beneš, P. et al. - CAVER 2.1 software, 2010. Hledání tunelů Caver Dijkstrův algoritmus na vyhledání optimální cesty na gridu nověji na Voronoi mesh

Hledání tunelů MOLE Atoms maps => Voronoi diagram http://mole.chemi.muni.cz/online/current/ http://mole.upol.cz Petrek M., Kosinova P., Koca J., Otyepka M.: MOLE: A Voronoi Diagram-Based Explorer of Molecular Channels, Pores, and Tunnels. Structure (2007) 15, 1357-1363.

Channel detection: MOLE 2.0 * Sehnal, Svobodová, et al., J. Cheminf. (2013) ** Berka,..., Svobodová, et al., Nucl. Acids Res. (2012)

Channel detection example Cytochrome P450 3A4 - channel analysis via MOLE: Results: Channels from active site: the solvent channel (in blue) product egress the channel 2a (in dark red) and 2e (in light red), involved in hydrophobic substrate binding

Anatomy of Channels Methodology: Analysis of all the enzyme structures from PDB (4.306 structures) Calculation of their properties via MOLE Statistical analysis

Anatomy of Channels Results*: 64% of enzymes have at least one channel Median channel length was 27.7 Å Most of the channels are polar An average channel is lined by 2 negative and 2 positive AAs gating AAs enriched: Pravda, Berka,... et al., BMC Bioinf. (2015)

Hledání mutability Hotspot Wizard hledání aktivních míst pro případné enzymové inženýrství metaserver http://loschmidt.chemi.muni.cz/hotspotwizard

Analýza pohybů

Time scale of biochemical processes

Analýza pohybů MolMovDB Flexibility and Geometric Analysis PMG Protein Movie Generator

Výzvy membránové proteiny protein-protein interakce disorder NA

Membránové proteiny Buněčná membrána lipidická dvojvrstva + proteiny Buněčná stěna rigidní vrstva vně buněčné membrány chránící buňku Vnější membrána další membrána mitochondrie, chloroplasty, Gram-negativní bakterie Membrane core hydrofobní část membrány Membrane interface polární oblasti u povrchu membrány Rovina x Osa membrány Membránové proteiny Topologie počet TM sekundárních struktur lokalizace N-terminálního konce (IN x OUT) re-entrant loops (neprojdou skrz membránu) Positive inside rule Arg a Lys jsou až 4x častější v cytosolu oproti periplasmě Lily-pad effect interakce s jádrem membrány častější aromatické residua Tyr, Trp

Membránové proteiny málo proteinů v PDB skutečně v membráně (300 v MPDB.org) (doména EM), většinou solubilizované (10000 v PDB) extrémně zajímavé jako receptory pro léčiva (GPCRs) predikce membránových částí ze sekvence (TMpred) predikce struktury málokdy (Swiss-Model-7TM)

Zanoření v membránách OPM server protein = rigid body optimalizace v anisotropickém implicitním modelu membrány fotosystém II http://opm.phar.umich.edu

Hledání protein-protein interakcí bouřlivě se rozvíjející oblast hledání léčiv blokujících interakce založená hlavně na evolučních analýzách sekvencí a porovnávání dat ze známých komplexů a dalších experimentů na pomezí systémové biologie STRING DB interakce mezi proteiny http://string-db.org

Disorder neviditelný nejsou k němu strukturní data odhady teplotní B-faktor v Xray, NMR ensemble, DISOPRED intristically disordered proteins nepotřebují strukturu k tomu, aby fungovali často regulační funkce molecular recognition (promiskuitní) molecular assembly (virální kapsidy) protein modification entropic chain activities (pružiny, entropické hodinky)

Nukleové kyseliny aneb na co se v mezičase nedostalo

RNA world RNA/DNA hypotéza prvotního RNA světa Rfam 10.0 http://www.imb-jena.de/rna.html collection of RNA families multiple sequence alignments, consensus secondary structures and covariance models (CMs) RNA hairpin DNA šroubovice

Terminologie RNA struktura

dotplot

Způsoby RNA predikce Naivní (stemloop) Zuker algoritmus s pseudoknoty s suboptimálními řešeními http://rna.tbi.univie.ac.at/cgi-bin/rnafold.cgi http://mfold.rna.albany.edu/?q=mfold/rna-folding-form

Naivní (STEMLOOP) 1. Calculates score over a window 2. Finds stems over a threshold score 3. Minimum/maximum loopsize 4. Sort by position or score + Shows all stems not just lowest energy - Energetics are very crude - No bulges or bubbles - Complex optimization problem

RNA energetika RNA je dynamická, hodně struktur s podobnou energií citlivé na podmínky (sůl, teplota, proteiny) pseudoknots biologická struktura nemusí být ta nejnižší, ale musí být jedna z hlavních hodně napoví fylogenetická analýza ΔG = ΔGstack + ΔGbulge + ΔGhairpin +ΔGinternal+ ΔGmultibranch ΔGstack je energie párování a stakování ve stemech, vše ostatní je pro loopy Jen ΔGstack stabilizuje sekundární strukturu, ostatní ji destabilizují

RNA energetika stacking (kcal/mol) Tetraloops Exceptionally common 4 base long loops >60% of loops in rrna are AUUU CUUG GAAA GAGA GCAA GCGA GGAA GUGA GUAA UACG UCCG UUCG UUUA Clearly more stable but exact energy unknown Zuker gives -2 kcal/mol

Calculation proceeds from center towards edges Includes stacking, bulge,internal, and hairpin loop terms Start from center because the center line is location of hairpin loops Zuker algoritmus

mfold nearest neighbor energy rule: free energies are assigned to loops rather than to base pairs. These have also been called loop dependent energy rules. A secondary structure, S on an RNA sequence,r=r 1,r 2,r 3,...r n, is a set of base pairs. A base pair between nucleotides r i and r j (i<j) is denoted by i.j. A few constraints are imposed. Two base pairs, i.j and i'.j' are either identical, or else i i, and j j. Thus base triples are deliberately excluded from the definition of secondary structure. Sharp U-turns are prohibited. A U-turn, called a hairpin loop, must contain at least 3 bases. Pseudoknots are prohibited. That is, if i.j and i,j S, then, assuming i < i', either i < i' < j' < j or i < j < i' < j'. http://mfold.rna.albany.edu/?q=mfold/rna-folding-form

EXAMPLE 1 The energy dot plot is an integral part of the folding prediction. Consider the folding of a short RNA sequence: AAGGGGUUGG UCGCCUCGAC UAAGCGGCUU GGAAUUCC The energy dot plot for the ``Example 1'' sequence. Surrounding annotation, which would not be legible at this scale, has been removed. The yellow dots indicate base pairs in foldings within 0.3 kcal/mole of the optimal folding free energy of -9.8 kcal/mole

The 2 predicted foldings for the ``Example 1'' sequence. (a)the optimal folding with DG = -9.8kcal/mole. (b)(b) The suboptimal fold (DG = -9.5kcal/mole) found (c)after refolding with `W'=0.

mfold RNA secondary structure with suboptimal folding Display results as mountains, domes, circles, squiggles Zuker s web site (includes server) http://bioinfo.math.rpi.edu/~zukerm/rna/ Calculate energies for specified structure (efn server) ssdna structure prediction

Eterna predikce stabilní 2D struktury RNA