ÚVOD DO BIOINFORMATIKY

Podobné dokumenty
Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Thursday, February 27, 14

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Využití metod strojového učení v bioinformatice David Hoksza

Využití internetových zdrojů při studiu mikroorganismů

Vyhledávání podobných sekvencí BLAST

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

MOLEKULÁRNÍ METODY V EKOLOGII MIKROORGANIZMŮ

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Bioinformatika a funkční studie

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Zpracování informací a vizualizace v chemii (C2150) 1. Úvod, databáze molekul

P ro te i n o vé d a ta b á ze

SEQUENCE ALIGNMENT MOLEKULÁRNÍ TAXONOMIE

Počítačová analýza lokálních podobností mezi biologickými sekvencemi

Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

Bioinformatika pro PrfUK 2003

Univerzita Pardubice. Fakulta ekonomicko-správní

Struktura biomakromolekul

Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií a biologie. Bioinformatika zahrnuje studium biologických dat

Inovace studia molekulární a buněčné biologie

1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)

Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

METODY VÍCENÁSOBNÉHO ZAROVNÁVÁNÍ NUKLEOTIDOVÝCH SEKVENCÍ

V. letní škola metod molekulární biologie nukleových kyselin a genomiky Ústav morfologie, fyziologie a genetiky zvířat AF MENDELU

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Vytváření fylogenetických stromů na základě alignmentů. Tomáš Novotný Jaroslav Knotek

Enzymové pexeso. L: lactose P: operon

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYHLEDÁVÁNÍ HOMOLOGNÍCH GENŮ DIPLOMOVÁ PRÁCE

Co se o sobě dovídáme z naší genetické informace

Základy fylogenetiky a konstrukce fylogenetických stromů

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION

Typy fylogenetických analýz

Věc: VZ: CEITEC Software k vyhodnocení výsledků pulzní gelové elektroforézy, dodatečné informace č.1 odpověď na dotaz uchazeče

Základy praktické Bioinformatiky

Určení molekulové hmotnosti: ESI a nanoesi

Strukturní biologie. Vojtěch Spiwok.

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

Blok 2 Sekundární struktura proteinů

Biotechnologický kurz. III. letní škola metod molekulární biologie nukleových kyselin a genomiky

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Počítačové vyhledávání genů a funkčních oblastí na DNA

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Novinky v IBM Notes a Domino. CubeTeam Dan Vrána

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Aplikovaná bioinformatika

Struktura a funkce biomakromolekul

Moderní systémy pro získávání znalostí z informací a dat

Počítačová chemie: Laboratoř za monitorem

Národní centrum pro výzkum biomolekul & MetaCentrum

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

PREDIKTOR VLIVU AMINOKYSELINOVÝCH SUBSTITUCÍ NA FUNKCI PROTEINŮ

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

Molekulární genetika IV zimní semestr 6. výukový týden ( )

Struktura biomakromolekul

CEITEC a jeho IT požadavky. RNDr. Radka Svobodová Vařeková, Ph.D.

Databáze biologických dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Markovovy modely v Bioinformatice

Využití software ITEMAN k položkové analýze a analýze výsledků testů

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

OPVK CZ.1.07/2.2.00/

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Úvod do molekulové dynamiky simulace proteinů. Eva Fadrná

Společnost Promo Glass s.r.o. Obsah

Služby pro predikci struktury proteinů. Josef Pihera

Struktura a funkce biomakromolekul

Struktura a funkce biomakromolekul

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Dynamic programming. Optimal binary search tree

FREEWAROVÉ ŘEŠENÍ DICOM SERVERU S NÍZKÝMI NÁROKY NA HARDWAROVÉ VYBAVENÍ

AFLP. protokoly standardizace AFLP hodnocení primárních dat dnes používané metody hodnocení fylogenetický signál v AFLP datech

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

Úvod do praktické bioinformatiky Fatima Cvrčková

Využití DNA sekvencování v

Kameyama Y. et al. (2001): Patterns and levels of gene flow in Rhododendron metternichii var. hondoense revealed by microsatellite analysis.

KFC/STBI Strukturní bioinformatika

ÚVOD DO MATEMATICKÉ BIOLOGIE I.

Matematika v programovacích

NGS analýza dat. kroužek, Alena Musilová

Využití strojového učení k identifikaci protein-ligand aktivních míst

Modelov an ı biologick ych syst em u Radek Pel anek

Návrh a prototypová implementace databáze pro

PCR IN DETECTION OF FUNGAL CONTAMINATIONS IN POWDERED PEPPER

Aminokyseliny a dlouhodobá parenterální výživa. Luboš Sobotka

Aplikace obrazové fúze pro hledání vad

Bioinformatika. Alignment 2. Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz

Inovace studia molekulární a buněčné biologie

PB050: Modelování a predikce v systémové biologii

Obecné principy chemických strukturních bází dat předmět projektu VaVpI ChemEIZ

Transkript:

MSSSYITDQGPGSGLRVPARSWLNSDAPSLSLNGDWRFRLLPTAPGTPGAGSVLATGETVEAVASESFD DSSWDTLAVPSHWVLAEDGKYGRPIYTNVQYPFPIDPPFVPDANPTGDYRRTFDVPDSWFESTTAALTL RFDGVESRYKVWVNGVEIGVGSGSRLAQEFDVSEALRPGKNLLVVRVHQWSAASYLEDQDQWWLPGIFR DVKLQARPVGGLTDVWLRTDWSGSGTITPEITADPAAFPVTLRVPELGLEVIWDSPADVAPVSIDAVEP WSAEVPRLYDASVSSAAESISLRLGFRTVKIVGDQFLVNGRKVIFHGVNRHETNADRGRVFDEASARED LALMKRFNVNAIRTSHYPPHPRFLDLADELGFWVILECDLETHGFHALKWVGNPSDDPAWRDALVDRME RTVERDKNHASIVMWSLGNESGTGANLAAMAAWTHARDLSRPVHYEGDYTGAYTDVYSRMYSSIPETDS IGRNDSHALLLGCNAIESARQRTRPFILCEYVHAMGNGPGAIDQYEDLVDKYPRLHGGFVWEWRDHGIR TRTADGTEFFAYGGDFDEVIHDGNFVMDGMILSDSTPTPGLFEYKQIVSPIRLALTLNAEGNAGLTVAN LRHTSDASDVVLRWRVEHNGTRVDAGELTTDGANGPLQAGDSLTLTLPTIVAAAEGETWLSVEAVLREA TAWAPAGHPLSETQLDLSPAQPPLRVPRPASPIAGAAPVELGPATFDAGSLVTLAGLPVAGPRLELWRA PTDNDKGQGFGAYGPEDPWINSGRGVPAPSSAVVWQQAGLDRLTRRVEDVAALPQGLRVRSRYAAANSE HDVAVEENWQLSGDELWLRIDIAPSAGWDLVFPRIGVRLDLPSEVDGASWFGAGPRESYPDSLHSAVVG THGGSLEELNVNYARPQETGHHSDVRWVELSRDGAPWLRIEADPDALGRRPGFSLAKNTAQEVALAPHP ELPESQHSYLYLDAAQHGLGSRACGPDVWPDFALRPEARTLVLRIRAARFDGVESRYKVWVNGVEIGVG MSSSYITDQGPGSGLRVPARSWLNSDAPSLSLNGDWRFRLLPTAPGTPGAGSVLATGETVEAVASESFD DSSWDTLAVPSHWVLAEDGKYGRPIYTNVQYPFPIDPPFVPDANPTGDYRRTFDVPDSWFESTTAALTL RFDGVESRYKVWVNGVEIGVGSGSRLAQEFDVSEALRPGKNLLVVRVHQWSAASYLEDQDQWWLPGIFR DVKLQARPVGGLTDVWLRTDWSGSGTITPEITADPAAFPVTLRVPELGLEVIWDSPADVAPVSIDAVEP WSAEVPRLYDASVSSAAESISLRLGFRTVKIVGDQFLVNGRKVIFHGVNRHETNADRGRVFDEASARED LALMKRFNVNAIRTSHYPPHPRFLDLADELGFWVILECDLETHGFHALKWVGNPSDDPAWRDALVDRME RTVERDKNHASIVMWSLGNESGTGANLAAMAAWTHARDLSRPVHYEGDYTGAYTDVYSRMYSSIPETDS IGRNDSHALLLGCNAIESARQRTRPFILCEYVHAMGNGPGAIDQYEDLVDKYPRLHGGFVWEWRDHGIR TRTADGTEFFAYGGDFDEVIHDGNFVMDGMILSDSTPTPGLFEYKQIVSPIRLALTLNAEGNAGLTVAN LRHTSDASDVVLRWRVEHNGTRVDAGELTTDGANGPLQAGDSLTLTLPTIVAAAEGETWLSVEAVLREA TAWAPAGHPLSETQLDLSPAQPPLRVPRPASPIAGAAPVELGPATFDAGSLVTLAGLPVAGPRLELWRA PTDNDKGQGFGAYGPEDPWINSGRGVPAPSSAVVWQQAGLDRLTRRVEDVAALPQGLRVRSRYAAANSE ÚVOD DO BIOINFORMATIKY

Bioinformatika (sekvence) Hledání v databasích, BLAST Porovnávání sekvencí, MSA Fylogenetické stromy Primer design Analýza -omických dat, systémová biologie speciální bioinformatika programování, webová rozhraní něco jiného?

Strukturní bioinformatika a molekulární modelování Visualizace proteinů 3D-alignment Elektrostatika Homologní modelování Protein-protein, protein-ligand docking Simulace biomolekul Kvantová chemie něco jiného?

Programy GUI konsole [spiwokv@localhost kurz]$

Metody černá skříňka detailní teorie

Počítače MS Windows Apple Linux / UNIX

Zdroje sekvencí: Database: moderované, nemoderované Database DNA: EMBL wwwebiacuk/embl European Molecular Biology Laboratory GenBank wwwncbinlmnihgov NIH DDBJ wwwddbjnigacjp NIG Database proteinů: trembl, PIR SwissProt UniProt (=trembl+pir+sp) Specializované na genomy: Ensembl lidský genom TIGR různé genomy IMG/M metagenomy Ještě více specializované: CAZY carbohydrate enzymes

Chyby: domena A Zadávaná sekvence Porovnávání Zařazeno jako doména A Dotaz: co je tohle? Porovnávání Výsledek: doména A!!!!! domena B

Vyhledávání sekvencí: Vyhledávání podle hesla: SRS (Sequence Retrieval System) srsebiacuk Entrez - wwwncbinlmnihgov/entrez/ Vyhledávání podle podobností sekvencí: FASTA BLAST, psi-blast, phi-blast

Formáty sekvencí: raw data GenBank, EMBL FASTA PIR/NBRF MACAW, GCG, změna formátu: Readseq online: wwwebiacuk/readseq download: např iubiobioindianaedu/soft/molbio

Formáty sekvencí: EMBL ID XX AC XX DT DT XX DE DE XX KW KW KW KW XX OS OC RN RA RT RT RT RL XX FH FH FT FT FT FT FT FT FT AJ457162; SV 1; linear; genomic DNA; STD; PRO; 7055 BP AJ457162; 15-JUL-2002 (Rel 72, Created) 15-APR-2005 (Rel 83, Last updated, Version 3) Arthrobacter sp C2-2 perac22, lacz, phoac22, dedac22, dbiac22, and hikac22 genes acid phosphatase; beta-galactosidase; dbiac22 gene; DedA-family membrane protein; dedac22 gene; hikac22 gene; histidine kinase; lacz gene; perac22 gene; phoac22 gene; sugar permease; transcriptional regulator Arthrobacter sp C2-2 Bacteria; Actinobacteria; Actinobacteridae; Actinomycetales; [2] Karasova P, Strnad H, Spiwok V, Mala S, Kralova B, Russell NJ; "The cloning, purification and characterization of a cold active beta-galactosidase from the psychrotolerant Antarctic bacterium Arthrobacter sp C2-2"; FT RBS 437443 Enzyme Microb Technol 33:836-844(2003) FT /gene="lacz" FT CDS 4553526 Key Location/Qualifiers FT /transl_table=11 FT /gene="lacz" source 17055 FT /product="beta-galactosidase" /organism="arthrobacter sp C2-2" FT /function="involved in galactosaccharide hydrolysis" /strain="c2-2" FT /EC_number="32123" /mol_type="genomic DNA" FT /db_xref="goa:q8krf6" /country="antarctica" FT /db_xref="interpro:ipr004199" /isolation_source="permanent Antarctic soil" /db_xref="taxon:192168" FT /db_xref="interpro:ipr013812" FT /db_xref="interpro:ipr014718" FT /db_xref="pdb:1yq2" FT /db_xref="uniprotkb/trembl:q8krf6" FT /protein_id="cad297751" FT /translation="mttadvsyltdqgpgsgrrvparswlhsdapalslngdwrfrllp FT AAPGTAGAGSVLPSGETVEGVAAESYDDAAWDTLPVPSHWVMGQDGKYGRPIYTNVQYP FT FPIDPPHVPDANPTGDFRRRFDVPAQWFESTTAALTLRFDGVESRYKVWVNGQEIGVGS FT GSRLAQEFDVSDALRAGSNLLVVRVHQWSAASYLEDQDQWWLPGIFRDVTLQARPAGGI XX SQ Sequence 7055 BP; 1081 A; 2481 C; 2287 G; 1206 T; 0 other; gatcctacat gagtcctgtg tcacattaat tgaatttcga gtaaccgctc gatctttgtg 60 ttagcgtcct tttactcggt ccgccgggtg atgccggtgt cccgcggacg ccttgcgtct 120 //

Formáty sekvencí: GenBank LOCUS DEFINITION ACCESSION VERSION REFERENCE AUTHORS TITLE JOURNAL RBS CDS ORIGIN AJ457162 7055 bp DNA linear BCT 15-APR-2005 Arthrobacter sp C2-2 perac22, lacz, phoac22, dedac22, dbiac22, and hikac22 genes AJ457162 AJ4571621 GI:21885919 1 Karasova,P, Strnad,H, Spiwok,V, Mala,S, Kralova,B and Russell,NJ The cloning, purification and characterization of a cold active beta-galactosidase from the psychrotolerant Antarctic bacterium Arthrobacter sp C2-2 Enzyme Microb Technol 33, 836-844 (2003) 38563859 /gene="phoac22" 38674556 /gene="phoac22" /codon_start=1 /transl_table=11 /product="acid phosphatase" /protein_id="cad297762" /db_xref="gi:21885922" /db_xref="interpro:ipr000326" /db_xref="interpro:ipr008934" /db_xref="uniprotkb/trembl:q8krf5" /translation="mlllsaavltlgfvatnvpsfspdefkvdqvlsrdhnaaltala MALNTVFSPKGGIVIIAVVCLFVLIVRKSPVNAFAFGGVAAAGWLSSQFFKVIVDRQR PNPALLFDPLAPETGSNSFPSGHVALAVGLAWAFFFLTRKTRWGTVAVFAGVGVPVVV AWSRIYIGVHYPSDVAASFLAATAAVLLFAGLWNRYQRAILPRIPLLGRFGPVSTAPA GVVVPANRTGH" 1 gatcctacat gagtcctgtg tcacattaat tgaatttcga gtaaccgctc gatctttgtg 61 ttagcgtcct tttactcggt ccgccgggtg atgccggtgt cccgcggacg ccttgcgtct //

Formáty sekvencí: FASTA >1tg7 LLQKYVTWDEHSIFVNGERLMIFSGEVHPYRLPVASLYIDIFEKVKALGFNCVSFYVDWAL LEGNPGHYSAEGIFDLQPFFDAAKEAGIYLLARPGPYINAEVSGGGFPGWLQRVDGILRTS DEAYLKATDNYASNIAATIAKAQITNGGPIILYQPENEYSGACCGYNGFPDGSYMQYIEDH ARDAGIVVPFISNDAWAAGHNAPGTGAGAVDIYGHDSYPLGFDCANPSTWPSGNLPTYFHT SHEQQSPSTPYSLVEFQGGAFDPWGGVGFAKCAALLNHEFERVFYKNDFSFGVAFLNLYMI FGGTNWGNLGHPGGYTSYDYGSAISESRNITREKYSELKLLGNFAKVSPGYLVANPGDLST STYTNTADLTVTPLLGSNSSASSFFVIRHSDYSSQASVEYKLTVPTSAGNLTIPQLGGSLT LSGRDSKIHVTDYDVAGTNILYSTAEVFTWKKFNNEKVLVLYGGPGEHHEFAVSGASSSSV VEGSSSGISSKKVGKALVVAWDVSTARRIVQVGSLKVFLLDRNSAYNYWVPQVPTKGTAPG YSNQETTASSIIVKAGYLVRSAYLDGNDLHIQADFNATTPIEVVGAPSGAKNLVINGKKTQ TKVDKNGIWSASVAYTAPKVQLPSLKSLKWKSVDTLPEAKNTYDDSAWTSADHAYTNNSAH SLQTPTSLFASDYGYHTGALLFRGHFTANGKEKTFFVQTKGGTAYGHSIWINETYVGSWAG TSINDNNNATYTLPTLQSGKNYVITVVIDNMGLDEDWTIGSEDMKNPRGIIQYSLSGQEAS AISWKLTGNLGGENYRDTVRGPLNEGGLYAERQGFHQPQPPTQKWDSSSPFTGLTKPGIRF YSTSFDLDLPSGYDIPLYFNFGNSTSTPAAYRVQLYVNGYQYGKYVNNIGPQTSFPVPEGI LNYHGTNWLALSLWAQEDNGAKLDSFELINTTPVLTSLGEVKSVNQPKYQARKGAY

Formáty sekvencí: PIR/NBRF >P1;1tg7 BETA-GALACTOSIDASE (PENICILLIUM SP) LLQKYVTWDE HSIFVNGERL MIFSGEVHPY RLPVASLYID NCVSFYVDWA LLEGNPGHYS AEGIFDLQPF FDAAKEAGIY AEVSGGGFPG WLQRVDGILR TSDEAYLKAT DNYASNIAAT PIILYQPENE YSGACCGYNG FPDGSYMQYI EDHARDAGIV AGHNAPGTGA GAVDIYGHDS YPLGFDCANP STWPSGNLPT PSTPYSLVEF QGGAFDPWGG VGFAKCAALL NHEFERVFYK NLYMIFGGTN WGNLGHPGGY TSYDYGSAIS ESRNITREKY KVSPGYLVAN PGDLSTSTYT NTADLTVTPL LGSNSSASSF QASVEYKLTV PTSAGNLTIP QLGGSLTLSG RDSKIHVTDY TAEVFTWKKF NNEKVLVLYG GPGEHHEFAV SGASSSSVVE VGKALVVAWD VSTARRIVQV GSLKVFLLDR NSAYNYWVPQ SNQETTASSI IVKAGYLVRS AYLDGNDLHI QADFNATTPI NLVINGKKTQ TKVDKNGIWS ASVAYTAPKV QLPSLKSLKW NTYDDSAWTS ADHAYTNNSA HSLQTPTSLF ASDYGYHTGA GKEKTFFVQT KGGTAYGHSI WINETYVGSW AGTSINDNNN GKNYVITVVI DNMGLDEDWT IGSEDMKNPR GIIQYSLSGQ GNLGGENYRD TVRGPLNEGG LYAERQGFHQ PQPPTQKWDS GIRFYSTSFD LDLPSGYDIP LYFNFGNSTS TPAAYRVQLY NNIGPQTSFP VPEGILNYHG TNWLALSLWA QEDNGAKLDS TSLGEVKSVN QPKYQARKGA Y* IFEKVKALGF LLARPGPYIN IAKAQITNGG VPFISNDAWA YFHTSHEQQS NDFSFGVAFL SELKLLGNFA FVIRHSDYSS DVAGTNILYS GSSSGISSKK VPTKGTAPGY EVVGAPSGAK KSVDTLPEAK LLFRGHFTAN ATYTLPTLQS EASAISWKLT SSPFTGLTKP VNGYQYGKYV FELINTTPVL

Porovnávání sekvencí: párové vícenásobné

Párové porovnávání sekvencí: identita = 36 % podobnost = 18 % homologie = identita + podobnost = 54 % seq1 seq2 IFEKVKALGFNCVSFYVDWALLEGNPGHYSAEGIFDLQPFFDAAKEAGIY RLRKIKAMGCNCIETYVAWNVHEPREGEFHFERMADVAEFVRLAGELGLY **** ** ** * * * * * * * * ** identita * ** * ** podobnost homologie **** ** 10 vše 0 10 ** * * 10 ** * * 20 * * * 30 * * * * 20 * * * * 18 9 * * * ** 27 40 50

Párové porovnávání sekvencí: Strukturní význam: ILYQPENEYSGACCGYNGFPDGSYMQYI IAVQIENEYGSY------GNDQAYLQAQ * * **** * **

Párové porovnávání sekvencí: Párovací matice: Dayhoff (Percent Accepted Mutations) PAM120, PAM80, PAM60 pro srovnávání proteinu s 40, 50, 60% homologie PAM120 (nejpoužívanější) Heinkoff + Heinkoff BLOSUM50, BLOSUM60 pro srovnávání proteinu s 50, 60% homologie BLOSUM62 (nejpoužívanější) Gonnet

Párové porovnávání sekvencí: Párovací matice: Dayhoff PAM120 Ala Arg Asn Asp Cys Gln Glu Ala 3, -3, -1, 0, -3, -1, 0, Arg -3, 6, -1, -3, -4, 1, -3, Asn Asp Cys Gln Glu -1, 0, -3, -1, 0, -1, -3, -4, 1, -3, 4, 2, -5, 0, 1, 2, 5, -7, 1, 3, -5, -7, 9, -7, -7, 0, 1, -7, 6, 2, 1, 3, -7, 2, 5,

Párové porovnávání sekvencí: Gap penalty (cena mezer): gap open gap extension konce ILYQPENEYSGACCGYNGFPDGSYMQYI IAVQIENEYGSY------GNDQAYLQAQ * * **** * ** gap extension gap open

Párové porovnávání sekvencí: Needleman-Wunch (1970) wwwhpa-bioinfotoolsorguk/pise/needlehtml Smith-Waterman, FASTA (1981) wwwebiacuk/mpsrch/ BLAST (1990) wwwncbinlmnihgov/blast/bl2seq/wblast2cgi ručně

Prohledávání databází sekvencí: BLAST (Basic Local Alignment Search Tool), PSI-BLAST, PHI-BLAST wwwncbinlmnihgov/blast wwwebiacuk/blast FASTA wwwebiacuk/fasta33

Prohledávání databází sekvencí: BLAST dotaz database BLASTP P P BLASTN N N BTASTX Nx6 P TBLASTN P Nx6 TBLASTX Nx6 Nx6

Prohledávání databází sekvencí: BLAST database EMBL UniPROT PDB genomy

Prohledávání databází sekvencí: BLAST E-value (expectancy,očekávatelnost) BLASTP 20MP-WashU [04-May-2006] [linux26-x64-i32lpf64 2006-05-10T17:22:28] Copyright (C) 1996-2006 Washington University, Saint Louis, Missouri USA All Rights Reserved Reference: Query= Gish, W (1996-2006) http://blastwustledu Sequence (515 letters) E-value Database: pdb 115,429 sequences; 27,888,449 total letters Searching102030405060708090100% done Sequences producing High-scoring Segment Pairs: Pairwise Pairwise Pairwise Pairwise Alignment Alignment Alignment Alignment 1 2 3 4 PDB:1OCC_A PDB:1OCC_N PDB:1OCO_A PDB:1OCO_N mol:protein mol:protein mol:protein mol:protein Hity length:514 length:514 length:514 length:514 High Score CYTOCHROME CYTOCHROME CYTOCHROME CYTOCHROME Smallest Sum Probability P(N) N C C C C OXIDASE OXIDASE OXIDASE OXIDASE 2317 2317 2317 2317 69e-241 69e-241 69e-241 69e-241 1 1 1 1

Prohledávání databází sekvencí: BLAST E-value (expectancy,očekávatelnost) statistika >PDB:1OCC_A mol:protein length:514 Length = 514 CYTOCHROME C OXIDASE Score = 2317 (8207 bits), Expect = 69e-241, P = 69e-241 Identities = 430/511 (84%), Positives = 447/511 (87%) Query: Sbjct: Query: Sbjct: Query: Sbjct: Nízká komplexita 1 MFANRWLYSTNHKDIGTLYLLFGAWAGMVGTAFSILIRAELGQPGSLLGDDQIYNVIVTA 60 MF NRWL+STNHKDIGTLYLLFGAWAGMVGTA S+LIRAELGQPG+LLGDDQIYNV+VTA 1 MFINRWLFSTNHKDIGTLYLLFGAWAGMVGTALSLLIRAELGQPGTLLGDDQIYNVVVTA 60 61 HAXXXXXXXXXXXXXXXXXNWLIPLMIGAPDMAFPRMNNMXXXXXXXXXXXXXXXXMVEA 120 HA NWL+PLMIGAPDMAFPRMNNM MVEA 61 HAFVMIFFMVMPIMIGGFGNWLVPLMIGAPDMAFPRMNNMSFWLLPPSFLLLLASSMVEA 120 121 GAGTGWTVYPPLAGNLAHAGASVDLTIFSLHLAGVSSILSAINFITTIINMKPPAMSQYH 180 GAGTGWTVYPPLAGNLAHAGASVDLTIFSLHLAGVSSIL AINFITTIINMKPPAMSQY 121 GAGTGWTVYPPLAGNLAHAGASVDLTIFSLHLAGVSSILGAINFITTIINMKPPAMSQYQ 180

Prohledávání databází sekvencí: BLAST E-value (expectancy,očekávatelnost) Parameters: E=10 B=50 V=100 mformat="7,/ebi/extserv/blast-work/interactive/blast-20080510-09080846_appxml" mformat=1 matrix=blosum62 sump filter=seg cpus=8 sort_by_pvalue putenv="wublastmat=/ebi/extserv/bin/wu-blast/matrix" putenv="wublastdb=/ebi/services/idata/v2172/blastdb" putenv="wublastfilter=/ebi/extserv/bin/wu-blast/filter" ctxfactor=100

Prohledávání databází sekvencí: BLAST E-value (expectancy,očekávatelnost) Query Frame +0 Query Frame +0 MatID Matrix name 0 BLOSUM62 Q=9,R=2 MatID 0 Length 515 ----- As Used Lambda K 0327 0141 0244 00300 EffLength 465 E 88 ----H 0463 0180 S W 74 3 T X 11 22 35 Statistics: Database: /ebi/services/idata/v2172/blastdb/pdb Title: pdb Posted: 11:46:16 AM BST May 7, 2008 Created: 11:46:15 AM BST May 7, 2008 Format: XDF-1 # of letters in database: 27,888,449 # of sequences in database: 115,429 # of database sequences satisfying E: 44 No of states in DFA: 631 (134 KB) ----- Computed ---Lambda K H same same same n/a n/a n/a E2 044 045 S2 33 37

Prohledávání databází sekvencí: BLAST Frekvence E-value (expectancy,očekávatelnost) E-value = počet stejně podobných sekvencí ve stejně velké databasi náhodných sekvencí Smutečná homologie Podobnost sekvencí

Prohledávání databází sekvencí: BLAST - nástrahy chybné anotace v databázích nízká komplexita velikost databáze

Prohledávání databází sekvencí: PSI-BLAST, PHI-BLAST dotaz Párovací matice PSSM posičně specifická substituční matice nalezené sekvence

Vícenásobné porovnávání sekvencí: CLUSTAL CLUSTALW (algoritmus), CLUSTALX (balík programů) A B C D sekvence A:C 37 % A:B 57 % párové srovnání (každý s každým) B:C 60 % fylogenetický strom vícenásobné srovnání B:D 30 % B A D C A B C D A:D 71 % C:D 65 %

Vícenásobné porovnávání sekvencí: DCA Divide-and-Conquer bibiservtechfakuni-bielefeldde/dca/

Vícenásobné porovnávání sekvencí: Chyby SPRÁVNĚ ŠPATNĚ

Srovnání sekvencí: ESPRIPT espriptibcpfr/espript/espript/

Fylogenetické vztahy: uzel STROM A zakořeněný větev B C D E (outgrup) nezakořeněný A E C B D

Fylogenetické vztahy: STROM A E C B D formát Newick ((A,B),(C,D),E) ((A:6,B:4):2,(C:2,D:1):3,E:7)

Fylogenetické vztahy: Fitch-Margoliash UPGMA (Unweighted Pair Group Method with Aritmetic mean) sekvence A B C D párové srovnání (každý s každým) A:C 37 % A:B 57 % B:C 60 % fylogenetický strom B:D 30 % B A C D A:D 71 % C:D 65 %

Fylogenetické vztahy: NJ (Neighbor-Joining) sekvence A B C D párové srovnání (každý s každým) A:C 37 % A:B 57 % B:C 60 % A:D 71 % B:D 30 % C:D 65 % fylogenetický strom A B B A C C D D

Fylogenetické vztahy: MP (Maximum Parsimony) a ML (Maximum Likehood) hledání společných předků s minimálním počtem mutací

Fylogenetické vztahy: Bootstraping B B? A A D D C C

Fylogenetické vztahy: Výpočet stromu: PHYLIP evolutiongeneticswashingtonedu/phyliphtml (UPGMA, NJ, ML, MP, vykreslení stromu) Zobrazení stromu: Phylodendron iubiobioindianaedu/treeapp

Hledání motivů:

Hledání motivů: vzorce Prosite [RHK] Arg, His nebo Lys {ED} cokoliv kromě Glu nebo Asp P(2) dva proliny po sobě G(2,4) dva až čtyři glyciny po sobě < N-konec > C-konec

Určení sekundárních struktur: DSSP Dictionary of secondary structure of proteins swiftcmbirunl/gv/dssp/

Predikce sekundárních struktur: Chou-Fasman, Garnier-Osgthorpe-Robson (statistické) PSIPRED (PSSM) bioinfcsuclacuk/psipred Jnet (neuronové sítě) wwwcompbiodundeeacuk/~www-jpred/ PHD (PredictProtein, neuronové sítě) wwwpredictproteinorg NNPredict (neuronové sítě) alexanderucsfedu/~nomi/nnpredicthtml YASSPP (Support vector machines) glarosdtcumnedu/gkhome/yasspp/overview JPred (konsensus) wwwcompbiodundeeacuk/~www-jpred/

Predikce sekundárních struktur: KGVVPQLVK Zhou et al (2000) Proteins, 41(2):248-256

Databáze prostorových struktur: PDB wwwrcsborg/pdb

Další nástroje: bioinformaticsorg Perl, Bioperl Python, Biopython

Visualizace 3D struktur: Pymol http://pymolsourceforgenet/ + snadná příprava kvalitních obrázků + podpora X-ray dat + možnost instalovat (a vytvářet) plug-ins VMD http://wwwksuiucedu/research/vmd/ + podpora visualizace trajektorií Chimera http://wwwcglucsfedu/chimera/ + mnoho nástrojů a další http://wwwrcsborg/pdb/staticdo?p=software/software_links/molecular_graphicshtml

Visualizace 3D struktur: POV-Ray: camera { orthographic location <00000, 00000, -20000> look_at <-00000, -00000, 20000> up <00000, 30000, 00000> right <30*80/60, 00000, 00000> } light_source { <-01000, 01000, -10000> color rgb<1000, 1000, 1000> parallel point_at <00, 00, 00> } light_source { <10000, 20000, -05000> color rgb<1000, 1000, 1000> parallel point_at <00, 00, 00> } background { color rgb<1000, 1000, 1000> } #default { texture { finish { ambient 0000 diffuse 0650 phong 01 phong_size 40000 specular 0200 } } } #declare VMD_line_width=00020; // MoleculeID: 0 ReprID: 0 Beginning CPK // MoleculeID: 0 ReprID: 0 Beginning VDW #declare nwidth=0172376370530328/5; VMD_sphere(<-0223,0463,0355>,nwidth,rgbt<1000,1000,1000,0000>) VMD_sphere(<-0325,0046,0705>,nwidth,rgbt<1000,1000,1000,0000>) VMD_cylinder(<0275,-0010,0383>,<0287,-0180,0406>nwidth,rgbt<0350,0350,0350,0000>,1) VMD_cylinder(<0275,-0010,0383>,<0039,0056,0391>nwidth,rgbt<0350,0350,0350,0000>,1)

Visualizace 3D struktur: POV-Ray:

Visualizace 3D struktur: POV-Ray:

Porovnávání 3D struktur: Pymol: align sequence1, sequence2

Porovnávání 3D struktur: Chimera:

Porovnávání 3D struktur: Ostatní: http://enwikipediaorg/wiki/structural_alignment_software