Bioinformatika a funkční studie



Podobné dokumenty
Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití

Inovace studia molekulární a buněčné biologie

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Bílkoviny - proteiny

Aminokyseliny a dlouhodobá parenterální výživa. Luboš Sobotka

Thursday, February 27, 14

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

PROTEINY. Biochemický ústav LF MU (H.P.)

Názvosloví cukrů, tuků, bílkovin

Určení molekulové hmotnosti: ESI a nanoesi

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu.

Aminokyseliny, struktura a vlastnosti bílkovin. doc. Jana Novotná 2 LF UK Ústav lékařské chemie a klinické biochemie

Využití internetových zdrojů při studiu mikroorganismů

Vzdělávací materiál. vytvořený v projektu OP VK. Anotace. Název školy: Gymnázium, Zábřeh, náměstí Osvobození 20. Číslo projektu:


Obecná struktura a-aminokyselin

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Metabolismus aminokyselin. Vladimíra Kvasnicová

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Inovace bakalářského studijního oboru Aplikovaná chemie

Translace (druhý krok genové exprese)

Metabolismus aminokyselin - testík na procvičení - Vladimíra Kvasnicová

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

místo, kde se rodí nápady

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Metabolizmus aminokyselin II

Bílkoviny. Charakteristika a význam Aminokyseliny Peptidy Struktura bílkovin Významné bílkoviny

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Molekulární biofyzika

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

Struktura nukleových kyselin Vlastnosti genetického materiálu

Laboratoř na čipu. Lab-on-a-chip. Pavel Matějka

Transportation Problem

Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií a biologie. Bioinformatika zahrnuje studium biologických dat

Litosil - application

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Český institut pro akreditaci, o.p.s. List 1 z 5

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Metabolizmus aminokyselin II

Co se o sobě dovídáme z naší genetické informace

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Metabolismus bílkovin. Václav Pelouch

ÚVOD DO BIOCHEMIE. Dělení : 1)Popisná = složení org., struktura a vlastnosti látek 2)Dynamická = energetické změny

Všeobecná fakultní nemocnice v Praze Diagnostické laboratoře Ústavu dědičných metabolických poruch Ke Karlovu 2, Praha 2

MODERNÍ STRATEGIE VÝŽIVY SELAT A BĚHOUNŮ

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Molekulární genetika IV zimní semestr 6. výukový týden ( )

Biológia. Prednášky - zimný semester Ročník - Magisterské štúdium

Cysteinové adukty globinu jako potenciální biomarkery expozice styrenu

Configuration vs. Conformation. Configuration: Covalent bonds must be broken. Two kinds of isomers to consider

Molekulární biofyzika

DUM č. 15 v sadě. 22. Ch-1 Biochemie

Biochemie I. Aminokyseliny a peptidy

Náhradník Náhradník 9.A

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

BIOSTIMULÁTOR AGRO-SORB ZDRAVÍ PRO POLE. VP AGRO, spol. s.r.o. Stehlíkova , Praha 6 - Suchdol

Digitální učební materiál

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Translace, techniky práce s DNA

ZKULAB s.r.o. Masarykova 300, POSTOLOPRTY

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

ZKULAB s.r.o. Laboratoř Postoloprty Masarykova 300, Postoloprty SOP I/A. 152/2009, příloha III, postup A) SOP I/B. (Nařízení Komise (ES) č.

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

WORKSHEET 1: LINEAR EQUATION 1

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Aktivita CLIL Chemie I.

CZ.1.07/1.5.00/

Aminokyseliny, Peptidy, Proteiny

PROTEOMIKA Prezentace z přednášek na adrese:

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

NMR biomakromolekul RCSB PDB. Progr. NMR

Database systems. Normal forms

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

Výukový materiál zpracován v rámci projektu EU peníze školám

11. Bioinformatika a proteiny II

Náhradník Náhradník 9.A

Vysvětlivky ke kombinované nomenklatuře Evropské unie (2015/C 143/04)

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

Compression of a Dictionary

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Molekulární diagnostika infekční bronchitidy v České republice a na Slovensku. Richard J W Currie

Synergin E-Vital (SEV)

Hmotnostní spektrometrie

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

LOGBOOK. Blahopřejeme, našli jste to! Nezapomeňte. Prosím vyvarujte se downtrade

ActiPack rozšířil výrobu i své prostory EMBAX Od ledna 2015 jsme vyrobili přes lahviček či kelímků. Děkujeme za Vaši důvěru!

CZ.1.07/1.5.00/

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

TRANSLACE - SYNTÉZA BÍLKOVIN

PCR IN DETECTION OF FUNGAL CONTAMINATIONS IN POWDERED PEPPER

Dynamic programming. Optimal binary search tree

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Transkript:

Bioinformatika a funkční studie

Bioinformatika Vztah informace a funkce Sekvenování DNA Proteinů Databáze Primární Sekundární Integrované internetové zdroje informací Vyhledávání sekvenční podobnosti, porovnávání sekvencí Predikce struktury a funkce

Bioinformatika je aplikace počítačové technologie na zpracování a analýzu biologických dat. Počítače slouží pro hromadění, ukládání, analýzu a propojení biologických dat. Bioinformatika je mezioborové vědecké odvětví, které stojí na pomezí biologie a počítačové vědy. Konečným cílem bioinformatiky je odhalení bohatství biologické informace ukryté v množství dat a ozřejmit tak základní biologické chování organismů. Tyto nové poznatky mohou mít velký vliv na široké spektrum oblastí od medicíny, zemědělství, životního prostředí, biotechnologie až po energetiku.

DNA RNA 5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3 3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5' 5' C-G-A-U-U-G-C-A-A-C-G-A-U-G-C 3 Protein R W Q R C Arg Trp Gln Arg Cys

Třípísmenné a jednopísmenné zkratky aminokyselin Aminokyselina Xxx X Aminokyselina Xxx X Alanine Ala A Lysine Lys K Arginine Arg R Methionine Met M Asparagine Asn N Phenylalanine Phe F Kyselina asparagová Asp D Proline Pro P Cysteine Cys C Serine Ser S Glutamine Gln Q Threonine Thr T Kyselina glutamová Glu E Tryptophan Trp W Glycine Gly G Tyrosine Tyr Y Histidine His H Valine Val V Isoleucine Ile I Asparagine nebo kyselina asparagová Asx B Leucine Leu L Glutamine nebo kyselina glutamová Glx Z

Hemoglobin HBB, human hemoglobin Beta řetězec DNA sekvence - 444 bp atggtgcatctgactcctgaggagaagtctgccgttactgccctgtggggcaaggtgaac gtggatgaagttggtggtgaggccctgggcaggctgctggtggtctacccttggacccag aggttctttgagtcctttggggatctgtccactcctgatgctgttatgggcaaccctaag Proteinová sekvence - 147 aa gtgaaggctcatggcaagaaagtgctcggtgcctttagtgatggcctggctcacctggac MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGD aacctcaagggcacctttgccacactgagtgagctgcactgtgacaagctgcacgtggat LSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL cctgagaacttcaggctcctgggcaacgtgctggtctgtgtgctggcccatcactttggc HVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHK aaagaattcaccccaccagtgcaggctgcctatcagaaagtggtggctggtgtggctaat YH gccctggcccacaagtatcactaa DNA sekvence určuje proteinovou sekvenci proteinová sekvence určuje proteinovou strukturu struktura proteinu určuje funkci

DNA DNA sekvenace 1972 DNA klonování 1975 DNA sekvenace 80-tá 90-tá léta sekvenační revoluce Manuálně Sanger Automaticky J. Craig Venter Celera Genomics

Současný stav sekvenačních projektů 6.3.2007 http://www.ncbi.nlm.nih.gov/genomes/leuks.cgi Eukaryotické projekty-343 kompletní 26 ve stavu anotace 127 nedokončené - 190 Mikrobiální projekty-1156 kompletní 468 432 Bakterie 36 Archea ve stavu anotace 304 nedokončené- 384 Viry 1774

Projekt Lidský genom (The Human Genome Project) Zahájen v polovině 80-tých let 20. století Odhad: 100,000 genů, dokončeno v roce 2005 Automatické sekvenování a zdokonalení výpočetní techniky Shotgun methody První verze publikována v roce 2000 společně International Consortium Human Genome Project (veřejně financovaná společnost) Celera Genomics (soukromá společnost) Referenční sekvence lidské DNA dokončena v dubnu 2003

Projekt Lidský genom (The Human Genome Project) 20-25 tis genů Alternativní sestřih 1,000,000 proteinů Stovky genů jsou výsledkem horizontálního přenosu z bakterií (v linii obratlovců) Desítky genů jsou odvozeny od transpozibilních elementů Rychlost mutací u můžu je asi 2x větší než u žen >1,400,000 jednoduchých nukleotidových polymorfismů (SNPs)

The human genome is composed of more than 3 billion nucleotide bases. The total number of human genes is estimated to be between 30,000-40,000. Worms have 19,098 genes, fruit flies have 13,602 and yeast has 6,034. Almost all nucleotide bases (99.9%) are exactly the same in all people. Less than 2% of the genome codes for proteins. The vast majority of the DNA in the genome (>97%) has no known function. The functions remain unknown for over 50% of discovered genes. Chromosome 1 has the most genes (2,968) and chromosome Y has the least (231). Humans have about 3 times as many proteins as flies and worms. This is because different proteins can be produced by the same gene using the processes of mrna splicing and protein post-translational modifications. Our DNA is 98% identical to chimpanzees. The average amount of genetic difference between any 2 chimpanzees is 4 or 5 times more than the average difference between any 2 humans. There are 100 trillion cells in your body. If unwound and tied together, the strands of DNA in one cell would stretch 6 feet. If all the DNA in your body was tied together, it would stretch to the sun and back over 600 times. 12,000 letters of DNA are decoded by human genome project computers every second. The entire human genome requires more than 3 gigabytes of computer storage space. If a person recited the genome at a rate of one nucleotide per second, 24 hours a day, it would take them a full century to complete. To sequence the human genome, researchers collected a large number of blood samples from females and sperm from males. A few of these samples were then chosen at random for sequencing. The identities of the sample sources have never been disclosed, either to the donors or to the scientists.

proteiny Proteinové sekvenování Edmanovo odbourávání - N-terminální sekvenace 1955 Ryle et al. - insulin 1960 Hirs et al. ribonuclease 1980s automatické sekvenátory Hmotnostní spektrometrie

Hemoglobin, lidský, beta řetězec

DNA databáze GenBank (NCBI) 67,218,344 sequence entries, 71,292,211,453 bases, February 15 2007 EMBL (EBI) 83,666,567 sequence entries, 150,163,403,742 bases, 30-NOV- 2006. 69 GB compressed (376 GB uncompressed) DDBJ (DNA DataBase of Japan) 64,267,978 entries, 68,259,314,742 bases Dec. 2006

Hemoglobin, lidský, beta řetězec EMBL databázový záznam

Primární proteinové databáze Primary databases UniProt (PIR-PSD, SwissProt, TrEMBL) UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases 309,349 entries (March 2007) UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 3,874,166 entries (March 2007) NCBInr; compiled from a variety of sources, including SwissProt, PIR, PRF, PDB, and translations from annotated coding regions in GenBank and RefSeq 4,396,331 entries (January 2007) - 4GB

Hemoglobin, lidský, beta řetězec Uniprot databázový záznam

FASTA formát jednoduchý formát zápisu sekvence >P68871 HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLS TPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVD PENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

Sekundární databáze Obsahují výsledky analýzy dat z primárních databází Sestaveny pomocí mnohočetného porovnávání (multiple alignment) homologních sekvencí pro zachycení konzervovaných oblastí zařazení do rodin

Sekundární databáze

Sekundární databáze Sekundární databáze PROSITE PRINTS Pfam BLOCKS Zdroj dat UNIPROT OWL UNIPROT PROSITE/PRINTS Princip řazení Regulární výrazy (patterns) motivy (fingerprints) Skryté Markovovy Modely (HMMs) motivy (blocks)

INTERPRO Integrovaný zdroj dokumentace o proteinových rodinách, doménách a funkčních místech Metody rozeznávající sekvenční signatury mají různé optimum použití díky rozdílným principům a vlastnostem algoritmů. Pro nejlepší výsledek je proto ideální kombinace všech metod. InterPro databáze zahrnuje: PROSITE, PRINTS, Pfam, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY, GENE3D a PANTHER

InterPro

Hemoglobin, lidský, beta řetězec Interpro databázový záznam

Strukturní databáze PDB - repository for the processing and distribution of 3-D biological macromolecular structure data 42082 structures (6.3.2007) přírůstek 3-D struktur v databázi ročně celkem Krystalografická analýza 80% Nukleární magnetická rezonance 18% Modelování 2%

nepoměr sekvence/struktura Růst sekvenčních dat Počet záznamů v db Růst jedinečných struktur čas

Hemoglobin, lidský, beta řetězec Struktura uložena v PDB Hemoglobin - struktura funkčního proteinu Hemoglobin beta řetězec Heterotetramer 2x alfa, 2x beta

Systémy pro získání informací (Information retrieval systems) ENTREZ (NCBI) DBGET (Genomnet) SRS (EBI)

ENTREZ

http://www.ncbi.nlm.nih.gov/entrez/

SRS3D SRS záznam

Vyhledávání a srovnávání (searching & alignment) >P68871 HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDL STPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLH VDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH Hledání homologních proteinů pomocí sekvenční podobnosti

Homologie vs. podobnost Sekvence jsou HOMOLOGNÍ, jestliže jsou odvozeny ze stejné původní sekvence ( vs. analogní proteiny s podobnými vlastnostmi, ale jiného původu, např. β-barrelové struktury, které mohou být dílem konvergence) Ortholog proteiny, které plní stejnou funkci v jiných organismech Paralog proteiny, které plní různou funkci v jednom organismu Homologie je absolutní výraz, ne míra podobnosti Platí: 2 proteiny jsou homologní Neplatí: proteiny jsou homologní z 50%!!!

Hledání sekvenční podobnosti DNA Protein srovnání Seq1:ATTCGACTCCA Seq2:ATTCGG-TCCA Seq1: KLIKATY Seq2: KLID-TY Párové srovnávací algoritmy -pracujíse dvěma sekvencemi a hledají nejlepší přeložení Lokální srovnávání - Smith-Waterman (1981) (http://pir.georgetown.edu/pirwww/search/pairwise.html ) Globální srovnávání Needleman-Wunsch (1970)

Databázové vyhledávání BLAST FASTA heuristické Rychlejší než párové srovnávací algoritmy, ale méně přesné algoritmy sloužící pro nalezení sekvenčních podobností zadané sekvence proti sekvencím v databázi Zaměřují se na vyhledávání krátkých identických úseků HSPs (BLAST) K-tuples (FASTA) Gapped BLAST zavedení mezer, které lépe odrážejí biologické procesy http://www.ncbi.nlm.nih.gov/blast/

Hemoglobin, lidský, beta řetězec Výsledek algoritmu BLAST

Statistické skórovací hodnoty Z-score míra, jak nepravděpodobná je nalezená shoda; čím větší číslo, tím větší pravděpodobnost, že srovnání není dílem náhody P-value pravděpodobnost, že pozorovaná shoda je dílem náhody E-value počet podobných záznamů se stejnými hodnotami skóre jako pozorovaný záznam, které mohou vzniknout v dané databázi náhodně (E=P*N ; N velikost databáze) E< 0.02 sekvence jsou pravděpodobně homologní 0.02 < E< 1 homologie není vyloučena E > 1 shoda je výsledkem náhody

Nepsaná pravidla > 45% sekvenční identity proteiny budou mít podobnou strukturu > 25% sekv. id. pravděpodobně budou mít shodný obecný způsob 3-D uspořádání 18-25% sekv. id. - twilight zone homologie je pravděpodobná, ale může být nepravdivá Důležitá je textura srovnání rozptýlené vs. ledovce Sperm whale myoglobin vs. lupin leghaemoglobin 15% identita, podobná 3D opravdu vzdáleně příbuzné

Mnohočetné sekvenční srovnávání 2D tabulka sekvence v řádcích srovnaná podle podobnosti (sloupce) sekvence konsensu shrnutí srovnání do jedné souhrnné sekvence ClustalW http://www.ebi.ac.uk/clustalw/index.html

Funkční charakteristika Základní vlastnosti proteinu pi MW Hydrofobicita Specifické sekvenční prvky predikce Lokalizace Funkce modifikace

Expasy - Proteomický server http://www.expasy.ch/ pi/mw, http://www.expasy.ch/tools/protparam.html http://www.expasy.ch/tools/pi_tool.html Sekundární, terciární strukturní znaky

Predikční programy TMHMM predikce transmembránových domén Signal P predikce signálního peptidu Lipo P predikce lipoproteinů Secretome P predikce secernovaných proteinů http://www.cbs.dtu.dk/services/ Psort B lokalizace a vlastnosti proteinů G- bakterií http://www.psort.org/psortb/ Posttranslační modifikace proteinů Fosforylace glykosylace

Základní adresy http://www.ebi.ac.uk/ -European Bioinformatic Institute (UK) http://www.ebi.ac.uk/2can/home.html - základní kurz bioinformatiky http://www.ncbi.nlm.nih.gov/ -National Center for Biotechnology Informatics (USA)

>UNIPROT Q5NFW3 Q5NFW3_FRATT Conserved hypothetical lipoprotein. MTKKKLLKALAVAAIATSLVACSDSSSNDKTLTTAVSSGSSVATTTVAAPADNTNVTANA SYIIGYGMGSSIATDKNIKTFNLNNDKVMAGFEDAINAKKPAIPLEDIANNMNTLRDKMQ QQMNQKAVTSFLSVQDGIYNSDLTPKSDIKNPDVVVYEFFDYQCMYCSKLAPEIEKIMKD NSDVQVVFAEFPIFGQKLPASEYAAEVSTAIYKLYGADAYVKYHNGIFATGEDEGSLKNA TVDNVAKQAGADMTKVNKAIQDDKIADHLKDMLKMGFGQLGIQGTPFLVIAPAKNATVAN TTIIGGYTTADGIQAAINKAKSTATTTSTSNNGQTDTKQAQNDIATVTAEAQATSGSTEQ LAQPR >UNIPROT Q5NEC5 Q5NEC5_FRATT Intracellular growth locus, subunit C. MIMSEMITRQQVTSGETIHVRTDPTACIGSHPNCRLFIDSLTIAGEKLDKNIVAIDGGED VTKADSATAAASVIRLSITPGSINPTISITLGVLIKSNVRTKIEEKVSSILQASATDMKI KLGNSNKKQEYKTDEAWGIMIDLSNLELYPISAKAFSISIEPTELMGVSKDGMRYHIISI DGLTTSQGSLPVCCAASTDKGVAKIGYIAAA >UNIPROT Q5NEB3 Q5NEB3_FRATT Multidrug resistance protein MFLMWKYSPLKTILILGPMVFAFALAMDVYMPVLPDMREALHTTQQMVQVTLSLFLVVTG VGQLFLGPLSDQLGRFRVILLSAVLFVIGSVLCALSSNIEFLIASRVVQGLGCCGLSVCA FAIIRDAFSGKTSSMIYSFINAIISVSPIIGPLIGVQLAIHFHWQSAFVFLTGLAVVAFL IVVIFVKESLPVERRKKMSWNVFARYLYVAKSLQFWAFSLAAVSGMASFFILFSMTPYII NYLGYPISEIYVVFGSAGLAFLIGSLFAGVIVNALGVYKTALLGVACVFAAGILSLSIYE IWGLSLWGFFAPCFLATFGCALTVGTGASGSMEPFYEIAGVAAALFGTMEFAISGIIGSI AMLFPATSSLPIAITMIIMSILCFVLLFLIKGKTKH >P68871 HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG KEFTPPVQAAYQKVVAGVANALAHKYH >UNIPROT P02768 ALBU_HUMAN Serum albumin precursor. MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGEENFKALVLIAFAQYLQQCPF EDHVKLVNEVTEFAKTCVADESAENCDKSLHTLFGDKLCTVATLRETYGEMADCCAKQEP ERNECFLQHKDDNPNLPRLVRPEVDVMCTAFHDNEETFLKKYLYEIARRHPYFYAPELLF FAKRYKAAFTECCQAADKAACLLPKLDELRDEGKASSAKQRLKCASLQKFGERAFKAWAV ARLSQRFPKAEFAEVSKLVTDLTKVHTECCHGDLLECADDRADLAKYICENQDSISSKLK ECCEKPLLEKSHCIAEVENDEMPADLPSLAADFVESKDVCKNYAEAKDVFLGMFLYEYAR RHPDYSVVLLLRLAKTYETTLEKCCAAADPHECYAKVFDEFKPLVEEPQNLIKQNCELFE QLGEYKFQNALLVRYTKKVPQVSTPTLVEVSRNLGKVGSKCCKHPEAKRMPCAEDYLSVV LNQLCVLHEKTPVSDRVTKCCTESLVNRRPCFSALEVDETYVPKEFNAETFTFHADICTL SEKERQIKKQTALVELVKHKPKATKEQLKAVMDDFAAFVEKCCKADDKETCFAEEGKKLV AASQAALGL