Hemoglobin a jemu podobní... Studijní materiál Jan Komárek
Bioinformatika Bioinformatika je vědní disciplína, která se zabývá metodami pro shromážďování, analýzu a vizualizaci rozsáhlých souborů biologických dat, zejména dat molekulárně-biologických (http://cs.wikipedia.org/wiki/bioinformatika)...zabývá se mimo jiné sekvenční analýzou, anotací genomu, zkoumáním evolučních vztahů mezi organismy, předpovídáním struktury a funkce proteinů,...
Struktura proteinů q primární struktura = sekvence, dána pořadím aminokyselin v polypeptidovém řetězci N DALQLRIYAQKPDNTIQEYMWNGDGWKEGTNLGGALPGTGIGATSFRYTDYNGPS IRIWFWYPDLVTIFDRAPPPVAATSKELKHIRVYTLTEGNTLQEFAYDSGTGWYN GGLGGAKFQVAPYSCIAAVLAGTQTDDLKLVQRAYDPHKGRTAIAATSFGAGN C zápis sekvence od N-konce (koncová aminokyselina s volnou NH 2 - skupinou k C-konci (koncová aminokyselina s volnou COOHskupinou), aminokyseliny zapisovány pomocí jednopísmenných zkratek: alanin A isoleucin I tyrosin Y arginin R leucin L valin V asparagin N lysin K aspartát D methionin M cystein C fenylalanin F glutamát E prolin P glutamin Q serin S glycin G threonin T histidin H tryptofan W
alifatické drobné malé Vennův diagram pro 20 přirozeně se vyskytujících aminokyselin vytvořený na základě jejich fyzikálněchemických vlastností aromatické nepolární http://www.ebi.ac.uk/tools/clustalw2 nabité polární pozitivně nabité
Struktura proteinů q sekundární struktura opakující se strukturní uspořádání proteinu v důsledku vazebných interakcí (vodíkové, iontové nebo disulfidické můstky) mezi částmi proteinového řetězce α-helix znázornění pomocí cartoon modelu β-skládaný list tvořený ze čtyř řetězců
Struktura proteinů q terciální struktura celkové prostorové uspořádání jednoho polypeptidového řetězce q kvartérní struktura uspořádání podjednotek (několika polypeptidových řetězců) u oligomerních proteinů homo- = složený ze stejných podjednotek hetero- = složený z různých podjednotek
q homology proteiny, jejichž sekvence mají původ ve společném prapředkovi následek evoluční divergence (vzájemného vzdalování): q paralogy v rámci stejného druhu, pochází z jednoho proteinu, u jehož genu došlo k duplikaci q ortology u různých druhů, postupně se vyvinuly z prapůvodního proteinu z prapředka srovnání sekvencí ortologních proteinů fylogenetická analýza
Významné bioinformatické instituce National Centre for Biotechnology information (NCBI) www.ncbi.nlm.nih.gov přístup k řadě databází prostřednictvím vyhledávacího systému Entrez řada bioinformatických nástrojů (BLAST) součástí také databáze článků s biomedicínskou tématikou PubMed
Významné bioinformatické instituce European Bioinformatics Institute (EBI) www.ebi.ac.uk přístup k řadě databází prostřednictvím vyhledávacího systému SRS řada bioinformatických aplikací (ClustalW2)
Vyhledávání v databázích vložením přístupového kódu start vyhledávání vložení přístupového kódu příklad vyhledávání záznamu pro lidský lysozym (P61625)
Vyhledávání v databázích vložením přístupového kódu počty nalezených záznamů v různých databázích
Vyhledávání v databázích vložením přístupového kódu nalezené záznamy v databázi UniprotKB volba formátu zobrazení záznamu
Schéma záznamu zobrazeného ve formátu SRS obecné informace... popis proteinu, z jakého organismu pochází... odkazy na vědecké články
Schéma záznamu zobrazeného ve formátu SRS (pokračování) popis vlastností proteinu (pokud jsou známy) odkazy na další databáze
Schéma záznamu zobrazeného ve formátu SRS (pokračování) jestli se jedná o prokázaný protein např. důkaz na úrovni proteinu/transkriptu, předpovězený na základě homologie, atd. grafické vyznačení sekundárních motivů, aktivních míst, signálních sekvencí...
Schéma záznamu zobrazeného ve formátu SRS (pokračování) informace o sekvenci (délka, molekulová hmotnost) zobrazení sekvence v různých formátech FASTA formát: textový formát pro zápis proteinových a nukleotidových sekvencí pomocí jednopísmenných symbolů obsahující krátký popis sekvence(uvozen symbolem >)
LALIGN http://www.ch.embnet.org/ software/lalign_form.html výběr lokálního/globálního párového přiložení dvou sekvencí nastavení parametrů přiložení název proteinu párové přiložení přiložení dvou sekvencí k sobě tak, aby si jejich části co nejvíce odpovídaly - globální (uvažována podobnost v celé délce sekvence) - lokální (uvažována podobnost pouze v částech sekvence) vložení sekvence... (holý text, ne FASTA formát) vložení druhé sekvence... název proteinu
LALIGN globálního párového přiložení pro dvojici sekvencí použití interpunkce u LALIGN: : identické aminokyseliny. podobné aminokyseliny (konzervativní substituce)
ClustalW2 http://www.ebi.ac.uk/tools/clustalw2/ mnohonásobné přiložení sekvenční přiložení pro více než tři proteiny řady vyjadřují jednotlivé sekvence, sloupce pozice aminokyselinových zbytků v proteinu - důležité pro identifikaci konzervativních oblastí proteinu (ty jsou obvykle strukturně nebo funkčně důležité), identifikace nových členů proteinovýh rodin vložení sekvencí ve FASTA formátu
ClustalW2 aminokyseliny barevně znázorněny (ty s podobnými fyzikálně chemickými vlastnostmi stejnou barvou) míra konzervovanosti přiřazených sekvencí vyjadřována několika symboly: * sloupce obsahující identické zbytky ve všech přiřazených sekvencích : sloupce obsahující konzervativní substituci. sloupce obsahující semikonzervativní substituci
ClustalW2 mnohonásobné přiložení se dá použít pro konstrukci fylogenetických stromů (diagramy znázorňující fylogenetickou příbuznost) délky větví úměrné evoluční změně tvorba fylogramu v ClustalW2 po vytvoření mnohonásobného přiložení:
Protein Data Bank (PDB) q databáze proteinových struktur určených pomocí rentgenostrukturní analýzy nebo nukleární magnetické rezonance www.pdb.org
Protein Data Bank (PDB) q všechny struktury uložené v databázi mají svůj jedinečný čtyřmístný kód (například 1uv3 ) vložení pdb kódu
Protein Data Bank (PDB) stáhnutí struktury ve formátu pdb: obecné informace, autoři, abstrakt
Protein Data Bank (PDB) organismus, ze kterého protein pochází seznam a zkratky ligandů ve struktuře odkazy na databáze informace vztahující se k metodě, pomocí které byla struktura určena