Bioinformatika a funkční studie
Bioinformatika Vztah informace a funkce Sekvenování DNA Proteinů Databáze Primární Sekundární Integrované internetové zdroje informací Vyhledávání sekvenční podobnosti, porovnávání sekvencí Predikce struktury a funkce
Bioinformatika je aplikace počítačové technologie na zpracování a analýzu biologických dat. Počítače slouží pro hromadění, ukládání, analýzu a propojení biologických dat. Bioinformatika je mezioborové vědecké odvětví, které stojí na pomezí biologie a počítačové vědy. Konečným cílem bioinformatiky je odhalení bohatství biologické informace ukryté v množství dat a ozřejmit tak základní biologické chování organismů. Tyto nové poznatky mohou mít velký vliv na široké spektrum oblastí od medicíny, zemědělství, životního prostředí, biotechnologie až po energetiku.
DNA RNA 5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3 3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5' 5' C-G-A-U-U-G-C-A-A-C-G-A-U-G-C 3 Protein R W Q R C Arg Trp Gln Arg Cys
Třípísmenné a jednopísmenné zkratky aminokyselin Aminokyselina Xxx X Aminokyselina Xxx X Alanine Ala A Lysine Lys K Arginine Arg R Methionine Met M Asparagine Asn N Phenylalanine Phe F Kyselina asparagová Asp D Proline Pro P Cysteine Cys C Serine Ser S Glutamine Gln Q Threonine Thr T Kyselina glutamová Glu E Tryptophan Trp W Glycine Gly G Tyrosine Tyr Y Histidine His H Valine Val V Isoleucine Ile I Asparagine nebo kyselina asparagová Asx B Leucine Leu L Glutamine nebo kyselina glutamová Glx Z
Hemoglobin HBB, human hemoglobin Beta řetězec DNA sekvence - 444 bp atggtgcatctgactcctgaggagaagtctgccgttactgccctgtggggcaaggtgaac gtggatgaagttggtggtgaggccctgggcaggctgctggtggtctacccttggacccag aggttctttgagtcctttggggatctgtccactcctgatgctgttatgggcaaccctaag Proteinová sekvence - 147 aa gtgaaggctcatggcaagaaagtgctcggtgcctttagtgatggcctggctcacctggac MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGD aacctcaagggcacctttgccacactgagtgagctgcactgtgacaagctgcacgtggat LSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL cctgagaacttcaggctcctgggcaacgtgctggtctgtgtgctggcccatcactttggc HVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHK aaagaattcaccccaccagtgcaggctgcctatcagaaagtggtggctggtgtggctaat YH gccctggcccacaagtatcactaa DNA sekvence určuje proteinovou sekvenci proteinová sekvence určuje proteinovou strukturu struktura proteinu určuje funkci
DNA DNA sekvenace 1972 DNA klonování 1975 DNA sekvenace 80-tá 90-tá léta sekvenační revoluce Manuálně Sanger Automaticky J. Craig Venter Celera Genomics
Současný stav sekvenačních projektů 6.3.2007 http://www.ncbi.nlm.nih.gov/genomes/leuks.cgi Eukaryotické projekty-343 kompletní 26 ve stavu anotace 127 nedokončené - 190 Mikrobiální projekty-1156 kompletní 468 432 Bakterie 36 Archea ve stavu anotace 304 nedokončené- 384 Viry 1774
Projekt Lidský genom (The Human Genome Project) Zahájen v polovině 80-tých let 20. století Odhad: 100,000 genů, dokončeno v roce 2005 Automatické sekvenování a zdokonalení výpočetní techniky Shotgun methody První verze publikována v roce 2000 společně International Consortium Human Genome Project (veřejně financovaná společnost) Celera Genomics (soukromá společnost) Referenční sekvence lidské DNA dokončena v dubnu 2003
Projekt Lidský genom (The Human Genome Project) 20-25 tis genů Alternativní sestřih 1,000,000 proteinů Stovky genů jsou výsledkem horizontálního přenosu z bakterií (v linii obratlovců) Desítky genů jsou odvozeny od transpozibilních elementů Rychlost mutací u můžu je asi 2x větší než u žen >1,400,000 jednoduchých nukleotidových polymorfismů (SNPs)
The human genome is composed of more than 3 billion nucleotide bases. The total number of human genes is estimated to be between 30,000-40,000. Worms have 19,098 genes, fruit flies have 13,602 and yeast has 6,034. Almost all nucleotide bases (99.9%) are exactly the same in all people. Less than 2% of the genome codes for proteins. The vast majority of the DNA in the genome (>97%) has no known function. The functions remain unknown for over 50% of discovered genes. Chromosome 1 has the most genes (2,968) and chromosome Y has the least (231). Humans have about 3 times as many proteins as flies and worms. This is because different proteins can be produced by the same gene using the processes of mrna splicing and protein post-translational modifications. Our DNA is 98% identical to chimpanzees. The average amount of genetic difference between any 2 chimpanzees is 4 or 5 times more than the average difference between any 2 humans. There are 100 trillion cells in your body. If unwound and tied together, the strands of DNA in one cell would stretch 6 feet. If all the DNA in your body was tied together, it would stretch to the sun and back over 600 times. 12,000 letters of DNA are decoded by human genome project computers every second. The entire human genome requires more than 3 gigabytes of computer storage space. If a person recited the genome at a rate of one nucleotide per second, 24 hours a day, it would take them a full century to complete. To sequence the human genome, researchers collected a large number of blood samples from females and sperm from males. A few of these samples were then chosen at random for sequencing. The identities of the sample sources have never been disclosed, either to the donors or to the scientists.
proteiny Proteinové sekvenování Edmanovo odbourávání - N-terminální sekvenace 1955 Ryle et al. - insulin 1960 Hirs et al. ribonuclease 1980s automatické sekvenátory Hmotnostní spektrometrie
Hemoglobin, lidský, beta řetězec
DNA databáze GenBank (NCBI) 67,218,344 sequence entries, 71,292,211,453 bases, February 15 2007 EMBL (EBI) 83,666,567 sequence entries, 150,163,403,742 bases, 30-NOV- 2006. 69 GB compressed (376 GB uncompressed) DDBJ (DNA DataBase of Japan) 64,267,978 entries, 68,259,314,742 bases Dec. 2006
Hemoglobin, lidský, beta řetězec EMBL databázový záznam
Primární proteinové databáze Primary databases UniProt (PIR-PSD, SwissProt, TrEMBL) UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases 309,349 entries (March 2007) UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 3,874,166 entries (March 2007) NCBInr; compiled from a variety of sources, including SwissProt, PIR, PRF, PDB, and translations from annotated coding regions in GenBank and RefSeq 4,396,331 entries (January 2007) - 4GB
Hemoglobin, lidský, beta řetězec Uniprot databázový záznam
FASTA formát jednoduchý formát zápisu sekvence >P68871 HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLS TPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVD PENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
Sekundární databáze Obsahují výsledky analýzy dat z primárních databází Sestaveny pomocí mnohočetného porovnávání (multiple alignment) homologních sekvencí pro zachycení konzervovaných oblastí zařazení do rodin
Sekundární databáze
Sekundární databáze Sekundární databáze PROSITE PRINTS Pfam BLOCKS Zdroj dat UNIPROT OWL UNIPROT PROSITE/PRINTS Princip řazení Regulární výrazy (patterns) motivy (fingerprints) Skryté Markovovy Modely (HMMs) motivy (blocks)
INTERPRO Integrovaný zdroj dokumentace o proteinových rodinách, doménách a funkčních místech Metody rozeznávající sekvenční signatury mají různé optimum použití díky rozdílným principům a vlastnostem algoritmů. Pro nejlepší výsledek je proto ideální kombinace všech metod. InterPro databáze zahrnuje: PROSITE, PRINTS, Pfam, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY, GENE3D a PANTHER
InterPro
Hemoglobin, lidský, beta řetězec Interpro databázový záznam
Strukturní databáze PDB - repository for the processing and distribution of 3-D biological macromolecular structure data 42082 structures (6.3.2007) přírůstek 3-D struktur v databázi ročně celkem Krystalografická analýza 80% Nukleární magnetická rezonance 18% Modelování 2%
nepoměr sekvence/struktura Růst sekvenčních dat Počet záznamů v db Růst jedinečných struktur čas
Hemoglobin, lidský, beta řetězec Struktura uložena v PDB Hemoglobin - struktura funkčního proteinu Hemoglobin beta řetězec Heterotetramer 2x alfa, 2x beta
Systémy pro získání informací (Information retrieval systems) ENTREZ (NCBI) DBGET (Genomnet) SRS (EBI)
ENTREZ
http://www.ncbi.nlm.nih.gov/entrez/
SRS3D SRS záznam
Vyhledávání a srovnávání (searching & alignment) >P68871 HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDL STPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLH VDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH Hledání homologních proteinů pomocí sekvenční podobnosti
Homologie vs. podobnost Sekvence jsou HOMOLOGNÍ, jestliže jsou odvozeny ze stejné původní sekvence ( vs. analogní proteiny s podobnými vlastnostmi, ale jiného původu, např. β-barrelové struktury, které mohou být dílem konvergence) Ortholog proteiny, které plní stejnou funkci v jiných organismech Paralog proteiny, které plní různou funkci v jednom organismu Homologie je absolutní výraz, ne míra podobnosti Platí: 2 proteiny jsou homologní Neplatí: proteiny jsou homologní z 50%!!!
Hledání sekvenční podobnosti DNA Protein srovnání Seq1:ATTCGACTCCA Seq2:ATTCGG-TCCA Seq1: KLIKATY Seq2: KLID-TY Párové srovnávací algoritmy -pracujíse dvěma sekvencemi a hledají nejlepší přeložení Lokální srovnávání - Smith-Waterman (1981) (http://pir.georgetown.edu/pirwww/search/pairwise.html ) Globální srovnávání Needleman-Wunsch (1970)
Databázové vyhledávání BLAST FASTA heuristické Rychlejší než párové srovnávací algoritmy, ale méně přesné algoritmy sloužící pro nalezení sekvenčních podobností zadané sekvence proti sekvencím v databázi Zaměřují se na vyhledávání krátkých identických úseků HSPs (BLAST) K-tuples (FASTA) Gapped BLAST zavedení mezer, které lépe odrážejí biologické procesy http://www.ncbi.nlm.nih.gov/blast/
Hemoglobin, lidský, beta řetězec Výsledek algoritmu BLAST
Statistické skórovací hodnoty Z-score míra, jak nepravděpodobná je nalezená shoda; čím větší číslo, tím větší pravděpodobnost, že srovnání není dílem náhody P-value pravděpodobnost, že pozorovaná shoda je dílem náhody E-value počet podobných záznamů se stejnými hodnotami skóre jako pozorovaný záznam, které mohou vzniknout v dané databázi náhodně (E=P*N ; N velikost databáze) E< 0.02 sekvence jsou pravděpodobně homologní 0.02 < E< 1 homologie není vyloučena E > 1 shoda je výsledkem náhody
Nepsaná pravidla > 45% sekvenční identity proteiny budou mít podobnou strukturu > 25% sekv. id. pravděpodobně budou mít shodný obecný způsob 3-D uspořádání 18-25% sekv. id. - twilight zone homologie je pravděpodobná, ale může být nepravdivá Důležitá je textura srovnání rozptýlené vs. ledovce Sperm whale myoglobin vs. lupin leghaemoglobin 15% identita, podobná 3D opravdu vzdáleně příbuzné
Mnohočetné sekvenční srovnávání 2D tabulka sekvence v řádcích srovnaná podle podobnosti (sloupce) sekvence konsensu shrnutí srovnání do jedné souhrnné sekvence ClustalW http://www.ebi.ac.uk/clustalw/index.html
Funkční charakteristika Základní vlastnosti proteinu pi MW Hydrofobicita Specifické sekvenční prvky predikce Lokalizace Funkce modifikace
Expasy - Proteomický server http://www.expasy.ch/ pi/mw, http://www.expasy.ch/tools/protparam.html http://www.expasy.ch/tools/pi_tool.html Sekundární, terciární strukturní znaky
Predikční programy TMHMM predikce transmembránových domén Signal P predikce signálního peptidu Lipo P predikce lipoproteinů Secretome P predikce secernovaných proteinů http://www.cbs.dtu.dk/services/ Psort B lokalizace a vlastnosti proteinů G- bakterií http://www.psort.org/psortb/ Posttranslační modifikace proteinů Fosforylace glykosylace
Základní adresy http://www.ebi.ac.uk/ -European Bioinformatic Institute (UK) http://www.ebi.ac.uk/2can/home.html - základní kurz bioinformatiky http://www.ncbi.nlm.nih.gov/ -National Center for Biotechnology Informatics (USA)
>UNIPROT Q5NFW3 Q5NFW3_FRATT Conserved hypothetical lipoprotein. MTKKKLLKALAVAAIATSLVACSDSSSNDKTLTTAVSSGSSVATTTVAAPADNTNVTANA SYIIGYGMGSSIATDKNIKTFNLNNDKVMAGFEDAINAKKPAIPLEDIANNMNTLRDKMQ QQMNQKAVTSFLSVQDGIYNSDLTPKSDIKNPDVVVYEFFDYQCMYCSKLAPEIEKIMKD NSDVQVVFAEFPIFGQKLPASEYAAEVSTAIYKLYGADAYVKYHNGIFATGEDEGSLKNA TVDNVAKQAGADMTKVNKAIQDDKIADHLKDMLKMGFGQLGIQGTPFLVIAPAKNATVAN TTIIGGYTTADGIQAAINKAKSTATTTSTSNNGQTDTKQAQNDIATVTAEAQATSGSTEQ LAQPR >UNIPROT Q5NEC5 Q5NEC5_FRATT Intracellular growth locus, subunit C. MIMSEMITRQQVTSGETIHVRTDPTACIGSHPNCRLFIDSLTIAGEKLDKNIVAIDGGED VTKADSATAAASVIRLSITPGSINPTISITLGVLIKSNVRTKIEEKVSSILQASATDMKI KLGNSNKKQEYKTDEAWGIMIDLSNLELYPISAKAFSISIEPTELMGVSKDGMRYHIISI DGLTTSQGSLPVCCAASTDKGVAKIGYIAAA >UNIPROT Q5NEB3 Q5NEB3_FRATT Multidrug resistance protein MFLMWKYSPLKTILILGPMVFAFALAMDVYMPVLPDMREALHTTQQMVQVTLSLFLVVTG VGQLFLGPLSDQLGRFRVILLSAVLFVIGSVLCALSSNIEFLIASRVVQGLGCCGLSVCA FAIIRDAFSGKTSSMIYSFINAIISVSPIIGPLIGVQLAIHFHWQSAFVFLTGLAVVAFL IVVIFVKESLPVERRKKMSWNVFARYLYVAKSLQFWAFSLAAVSGMASFFILFSMTPYII NYLGYPISEIYVVFGSAGLAFLIGSLFAGVIVNALGVYKTALLGVACVFAAGILSLSIYE IWGLSLWGFFAPCFLATFGCALTVGTGASGSMEPFYEIAGVAAALFGTMEFAISGIIGSI AMLFPATSSLPIAITMIIMSILCFVLLFLIKGKTKH >P68871 HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG KEFTPPVQAAYQKVVAGVANALAHKYH >UNIPROT P02768 ALBU_HUMAN Serum albumin precursor. MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGEENFKALVLIAFAQYLQQCPF EDHVKLVNEVTEFAKTCVADESAENCDKSLHTLFGDKLCTVATLRETYGEMADCCAKQEP ERNECFLQHKDDNPNLPRLVRPEVDVMCTAFHDNEETFLKKYLYEIARRHPYFYAPELLF FAKRYKAAFTECCQAADKAACLLPKLDELRDEGKASSAKQRLKCASLQKFGERAFKAWAV ARLSQRFPKAEFAEVSKLVTDLTKVHTECCHGDLLECADDRADLAKYICENQDSISSKLK ECCEKPLLEKSHCIAEVENDEMPADLPSLAADFVESKDVCKNYAEAKDVFLGMFLYEYAR RHPDYSVVLLLRLAKTYETTLEKCCAAADPHECYAKVFDEFKPLVEEPQNLIKQNCELFE QLGEYKFQNALLVRYTKKVPQVSTPTLVEVSRNLGKVGSKCCKHPEAKRMPCAEDYLSVV LNQLCVLHEKTPVSDRVTKCCTESLVNRRPCFSALEVDETYVPKEFNAETFTFHADICTL SEKERQIKKQTALVELVKHKPKATKEQLKAVMDDFAAFVEKCCKADDKETCFAEEGKKLV AASQAALGL